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Tl n est gufere utile d insister sur les d6fis que pose le d6ve!oppement technologique d. la 
survie dj fran^ais comme langue v6hiculaire de la science, de rinnovation. Mais doit-on les 
relever ces d6fis? 



Les positions les plus diverses ont cours dans le monde francophone. Les uns 
prdnent le mamtien du statut du franjais, langue de culture, langue litt6raire et 
refusent qu'on retouche le monument... D'autres par contre sont convaincus de la 
n6cessit6 d'adapter le fran^ais ft la technique; ils croient en la capacity de resourcement de la 
langue, en sa capacity de pouvoir encore exprimer les concepts scientifiques comme elle I'a 
toujours fait. 



Cest ainsi que de nombreux chercheurs travaillent & I'^tablissement de ponts 
entre 1 univers informatique et les utilisateurs francophones, ft Tadaptation du materiel 
informatique aux 'p6cificit6s de la langue fran9aise. ft la description de la langue aussi 
bien sous sa forme orale qu'6crite pour qu'elle puisse b^nificier du traitement 
informatique. L'objectif vis6 par ces travaux, c'est d'abord I'accroissement des connaissances 
inguistiques; mais aussi et peut-«tre surtout, c'est, dans le contexte des technologies de 
I information, de permettre que la langue fran9aise jouisse des memes avantages que la langue 
anglaise, que Tutihsateur francophone puisse disposer d'outils propres ft ses soecificit^s 
Imguistiques. 



C est dans le but de reunir les sp6cialistes pr6occup6s par cette question des industries de 
la langue qu'est nee cette idde d'une rencontre sur le traitement des langu^s nmurelles en me 
dapphcaiions informatiques. Le groupe RELAI (recherche en linguistique appliqude ft 
nnformatique) rattache au Centre international de recherche en am6nagement linguistique (CIRB) 
de 1 University Laval a 6te heureux de s'associer au Laboratoire d'automatique documentaire et 
linguistique (LADL) du professeur Maurice Gross de l'Universit6 de Paris VII pour orsaniser 
l^v^nement. 



Plus de 150 congressistes, provenant de la plupart des laboratoires et centres de 
recherche int6ress6s par les industries de la langue, se sont inscrits au Colloque Le traitemeut des 
langues naturelles en vue d*appplicatioos informatiques qui s'est tenu ft I'Universitt Laval les 7, 
8 et 9 ddcerabre 1988. On a no\€ une forte participation des ^tudiants graduis aux divers ateliers 
ce qui d^montre bien I'actualite et rint6ret du th^me retenu. Nous avons ^galement appr6ci6 la 
presence de nombreux chercheurs du LADL et du centre d'ATO de TUniversiti du Quebec ft 
Montreal. 



Le Colloque Le traitement des langues naturelles en vue d'applications Informatiques n'a 

pu avoir lieu que grftce ft de g6n6reuses contributions du Conseil de recherches en sciences 
humaines du Canada, du I>6partement de langues et linguistique et de la Faculty des lettres de 
l'Universit6 Laval. Nous tenons ft remercier ces organismes. 
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t»A«^ h-^''*^*^i*®5. ^" colloque, sous la respoasabiUt6 conjointe du CIRB et de 

pu sumre 4 la tAche sans le travajl et le d6vouement d'Esther Blais et d' Annie Bourret charpees 
de rorganisation mat^rielle de la rencontre. wourrei, chargees 

a rr*^t;«« Pr^P*'?*^<'°,<les ACTES, y compris ies fastidieuses tfiches de collecte, de traitement de 
Sm^rd Guay Presentation, 6tait sous la responsabilit^ d'Esther S et de 

contacts'^entrrie°Irou.^" w^F? T^^^'l f^5"«^««»^ Tremblay qui a ^tabli les premiers 

coScr^H. I fntS^^ "P"^ d'initiative, sa tenaci/a nous 

convamcre de 1 int6rdt d une telle rencontre, ce colloque n'aurait certainement pas eu lieu 



ERIC 



Avant-propos j 

Conrad Ouellon 
(CIRB) 

Discours d'ouYerture ... 5 

Lome La/orge 
<CIRB) 

Analyse d*adverbes complexes 9 

Antoinetie Balihar-Mrabti 

Apport des parseurs & Fanalyse des dono^es textuelies par ordlnateur 21 

Louis-Claude Paquin. Jacques Beauchemin 
(UQAM) 

Bilaa d'sm m d'observatlon et d'action en Industrie de la langue au plan francophone 33 
Andr£ Abbou 

(Observatoire fran9ais des industries de la langue) 

La cartography lexfcographique des avis offidels 39 

Jean-Claude Boulanger 
(University Laval) 

Codification "phonographique" de l^esp&gnoi 53 

5/7 VIA Faitelson-Weiser 
(University Laval) 

Conception en DELPHIA-PROLOG d'une interface simple et efficace pour Tlnterro- 
gation de bases de donn^es en fran^ais - Une application industrieUe 59 

Catherine Pcqudgnal 
(Delphia, LGI) 

Les constructions libres de forme Nom -f Nom 61 

Agnes Tuiin 

(University de Montreal) 

De quelques proc^d^s de caractyrisation des noms d'action en f ran^ais 63 

Andr£ Borillo 

(University Toulouse Le Mirail) 

Le d^coupage atttomatlque de textes en unltys lexicales 65 

Jacques Ladouceur 
(University Laval) 

Degry de flgement des compos6s N de N 67 

Gaston Gross 
(University Paris XIIl) 

Le« dictionnaires yiectronlques DELAS et DELAC 69 

Blandine Courtois, Max Silherztein 
(LADL) 



ERIC 



7 



I 



J: Table des nuuieres 



Des 6I6meats d'ua atelier de Giole Ilnguistique . iQ-j 
H. Habrias, J.F. Hue, J.H. Jayez. P. Legrand. Y. Simon 
(University Ete Nantes) 

feiuJc dii degrt de difficult^ de textes relatlfs k IMaformatiqur ni 

Martine Bourqtte 

(University Lava!) 

L'^valuatloa de la productivity lexicale et les dtctloniaiiires yiectronSaues ni 
Andri Dugas. (UQAM) ™n»«juirs 131 

Formalisatlon et variation Uagulstlaue : le fraacals du Ouybec 1 i-j 

Jacques Labelle 

(UQAM) 

FRAN A : Logldel de gynyratloa de textes ... 147 

Chantal Comani 

(University Laval) 

Hytyrogynyity et Intrtcatfon dans les ynoncys - ConsyqiaeHces pour U parsafie 151 

Jean-Marie Marandin v^^^n^ i:>j 

(INKS - INaLF) 

«It!dustries de la laague» : nn concept & dyflnir 

Marie-Claude V Homme 

(University Laval) 

IntyractioB des dydsions dans un systiaie de Gynyratlon autoa»atique de textes 177 
Laurence Danlos 
(LADL) 

Interactions des representations orthographiques et phonologiques durant !a lecture 179 
Martin Beaudoin 
University Laval 

La phoaytlsatlon autoraatlque de textes fran^als 187 

£ric Laporte 
(LADL) 

Systyme d*analyse de contenu asslstye par ordlnateur (SACAO) 1 97 

Frangois Daoust, Jules Duchastel, Luc Dupuv 
(UQAM) 

La description des laagues naturelles en vue d'applicatlons Inforaiatlques SATO, 

nn outll au service de TAdinlDistratloD publique 211 

Maurice Cingras 

Logldel d'atde h la conception de bases de connalssaaces dyontlcMes oartlr de 
ranalyse de textes de ryglement 215 

Marie-Michele Boulet, Bernard Moulin, Daniel Rousseau. Gdrard Simiam 
R^gine Pierre 
(University Laval) 



ERIC 



Table des matieres 



3 



LogiTexte, un ioglciel dt coneeptiost textfiielle assistde par ordis&teur 239 

Jean-Yves Frechette. Raymond Hamel 
(Cegep F,X. Garneau) 

La notion de simaatlqne en intelUgence artiticlelie 24S 

Jean-Francois Montr euil 
(Univcrsifc Laval) 

L*organisation dcs dur^es segmeotales au seio de ia risne sylSablqise 247 

Marise Ouellei 
(Un;versit6 de Montreal) 

Recherche d'une description syntaxique contrastive des noms compo$<^es N de N 

du fran^ais et N di N, N da N de I'ltalien , 255 

Anna Firenze. Beatrice Pellctier 

(LADL) 

Relations entre ?erbes supports. Pr^dlcats nomiftiatix supportds par CSAR et TER 

en Portugais 257 

Elisabete Ranchod 

(Universidade de Lisboa) 

Scenario de di^^eloppement des Industries de la langue 259 

Richard Parent 

(Ministdre des Communications du Quebec) 

Les structures et les mesures de !a prosodie du fran^ais (eo vue de !fi syn- 
thase par rdglesi 269 

Laurent Sanierre 

(Universite de Montreal) 

Le traitement interactif des documents 283 

Michael Mepham 
(Universite Laval) 

La transcription de corpus oraux dans une perspective comparative - La demarche 

du projet PLURAL 295 

Michel Francard, (University de Louvain) 
Louise P^rannet, (Universite de Moncton) 

Translegs, une station de travail lingulstique 309 

YveKC Mathieu 
(LADL) 

Ls grammaire applicative universelle 319 

Francois Rousselot 
(Scolia) 

Un projet de recherche et de d^veloppemeiat : un syst^me de d^pouiHement lerminolo- 

glque assists par ordinateur 331 

Pierre Plante, (Centre d'ATO) 
Jean Perron (OLF) 



ERLC 



4 



Table des maiieres 



ERIC 



Une analyse des propositions cm, s, para, de, du portugais iii 

Maria EUsa Macedo 

(Universidade de Lisboa) 

Variations du d6blt Ajds la parole de synthase - De Is syntaxe d !a phonftlque . 1^5 
Daniele ArchambauU 
(University de Montreal) 

Vers le parsage ttalversel 

J eon- Yves Morin 
University de Montreal 



10 




■ M. le pr6siden» et directeur du d^jartement de langues et linguistique de 
rUniversit^ Laval. 

■ M. Ic directcjr du laboratoire d'automatique documentaire et linguistique de 
L'Universit^ Paris VII 

■ Mme la pr^sidente des 6tudiants diplOin^s inscrits en languei et linguistique 

■ Distingucs 'livites d'honneur 

« Chers co*.6gues et participan;s inscrits & cc colloque 

En guise de remarques priliminaires, je liens d'abord ^ vous souhaiter la bienvenue et & 
ejtprimer au nom Ud CIRB Timmense satisfaction oue nous ressentons d rouverturc de ce colloque 
de voir ici r6unis pour la premiere fois 4 ru.iiversit* Laval des chercheurs de tr6s grai^de 
reputation pour communiquer les r^sultnts de leur recherche sur la description des langt4€s 
naturelies en vue d'applications inforr*r{uiquL's. Nous sommes d'autant plus satisfaits de constater 
que cette eotreprise a pris r.dissance sons le signe de ia collaboration entre trois organismes le 
LADL de Paris Vll, le CERIL 6galcment de Paris VII et IMEDILL de TU liversit* Laval et nous, 
c'est-a-dire le CIRB - Centre International de recherche en am^nagemcnf linguistique. La tenue 
de ce colloque a rendue possible grace t une subvencion du Conseil de Recherche en sciences 
humames du Canada, au soutien financier du projet RELAI et 4 I'appui de rUniversit6 Laval, de 
la Faculty des lettres et du d^partement de langues et K.iguistique. L'organisation du colloque est 
sous la responsabiUte directe de M. Conrao Ouellon, directeur-ad joint du CIRB, appuy^ par une 
<^^uipe tr^s efficace ;t dynamique. Nous aorons tres souvent 4 lui rappeler cet ^v^nement et 4 le 
feliciter pour ce qui s'annonce un fucjds eclafaiit. 

Le theme du colloque qui nons rassemble ici aujourd'hui met Taccent sur la recherche 
londamentale en linguistique. recherche prealable 4 toute application informatique. Cette 
recherche constitue sans quVn en fasse tou juurs tm, la toile de fond, le cadre th^rique oblige 
des realisations les plus spectacutaires de rinformatique moderne. Et les infcrmaticiens le savent 
et commencent 4 I'admett.e. Nous nous attendons done d ce que les participants et les cher- 
cheurs-communicants nous permettent de mieux d6finir des concepts r*cc-»ts et images comme "les 
industries de la languc", qu'ils donncnt des assises th^oriques 4 Pinformatique linguistique qu'on 
a souvent tendance 4 designer dans cr /tains milieux comme une recherche utilitaire et exclusive- 
meit appliquee. done synonym? de recheiche tres neu universitaire. 

II faudrait rappeler que I'i'ifoimatique linguistique peut 6tre citfee pour ses glorieux 6tats 
de service et par i inieret qu'elio a genere aupres de chercheurs tr6s prestigieux de T^poque. Mes 
souvenirs me ramdnent k 1964 alori que j'assistais k un colloque sur la recherche en linguistique 
quantitative 4 PUniversii^ we Strasbourg, et oii on pouvait entendre les Moreau, Qu^mada, Potier, 
Coseriu, Herdan, Muller, Greimas et surtout Gougenheim fascines par Ja traduction autornat'que, 
I'analyse par ordinateur du lexique et de 'a sranjmaire et par les travauA sur la concordance des 
textes. Au Canada, les travaux f^ffectues 5 Ottawa et A I'Universitd de Montreal sur la traduction 
assistee par ordinateur, les ban ,ues de terminologie de rOLF et du Secretaria d'ttat, TEAO, 
I'analyse textuelle, \u synthese de la parole ont doming les dernieres dtcennies. Au niveau 
iniernationil, les specialistes de rinformatique linguistique ont trou,^ une tribune grSce 4 un 
organisme designe par le i^iglf' COl.ING, ou computational linguistics organisme regroupant 
surtout des intervenants anglophones. 
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^ . Lome Lafor^e 

H app8' ient toujours aux aln^ dont je suis de faire le pom entre le pass^ et ie present 
1?^ sorte une certaine i-ontinuu6. Et dans cette continuit6 force nous est de 

constater le temps fort qui s'est installs dans notre milieu depuis quatre ou cinq ans en 
informauque hnguistique. Serait-ce attribjable au fait que r instrument s'est fait petit, souplc et 
convivial, qu il est dcvenu un bien de com^ommation accessible k tous et qu'sl appanient a tous 
ceux qui ont les moyens de Tacqu^rir et dc sN-n servir? Serait-ce que les pouvoirs publics ont 
^'«?.rf -i^f la port6e de ce ph^nom^ne social et ont mis I'accent sur le d^veloppement 
d outils utihtaires dans des domaines comms les communications, I'^ducation, le commerce et 
I Industrie? Serait-ce 6galement attribuable aux limites des artifices de I'informatique qui doit 
n6cessa.rement utiliser le g6n.e inventif et cr^a'eur des langues naturelles pour articuler 
I intelligence artificielle et cr6er de nouvelles generations d'ordiaateurs? 

routes ces questions seraient pure rh6tcrique si Ton ne convenait pas que la conjoncture 
actuelle est extrfimement favorable k la conduite de recherches comme les nCtres et qu'il faut saisir 
1 occasion pour d^montrer k tous les bailleurs de fonds la solidity, le s6rieux et la grande rigueur 
de nos entreprises En parcourant le programn e du coHoque nous nc pouvons nous empficher 
de temo.gner du tr6s haut niveau des communications inscrites et de la quality des communicants 
Nous predisons done que ce colloque sera un ev/:nement marquant en informatique lingui^tique 
et qu il sera cit4 & 1 avenir comme un module k pt-rp^tuer. Hst-ce trop ambitJeux? Je ne le crcis 
pas et vous me donnerez volontiers raison. 

L^volution que nous avons voulu imprimer k notre centre de recherche - le CIRP 
dcpuis quelqucs ann^cs, sc concretise constamment et en particulier aujourd'hui par ce colloque 
mns une soci«t6 comme la nOtre - je parle 6videmment du contexte canadien et qu6b6cois - oO 
les questions linguistiques ont toujours et6 visc6rales, od les luttes pour r^sister ou pour conqu6rir 
du terntoire, du pouvoir et de rinnuence ont toujours 6t^ en apparence tr6s civilis6es, mais 
combien sournoises et soutenues, il nous est apparu n6cessaire de changer notre orientation vers 
des recherches qui correspondraient davantage aux besoins de notre soci^t^, recherches permettant 
dentrevoir 1 objectivity des faits et non la subjectivity des opinions. 

Voiia pourquoi le CIRB, sous It parapluie de l'am6nagement Hnguistique et en particulier 
am6nagement du corpus, a choisi d'entreprcndre I'ytude des probl6mes demandant r^clairage de 
la recherche scientifique pour que scieni actualists les objectifs et les moyens pr6conis6s par les 
plans d am6nagement hnguistique du territoire canadien et quebecois. Par exemple, nous avons 
voulu d6finir notre programme scientifique en complementarity et peut-etre pour aller plus loin 
au plan thyonque, que TOffice de la langue fran?aise du Quybec, organisme d'etat vouy k 
I amynagement hnguistique du Quybec, en particulier, k I'amynagement du corpus, dcpuis plus de 
20 ans. C est done par rapport k Taction de TOLF et k tout ce qui est sous-jacent k cette action 
qu un programme de recherche universitaire a pu ytre dyfini. 

Le souci du CIRB dans sa programmation scientifique est de dymontrer qu'elle gyndre un 
progrys intellectuel. La simple application pratique pourrait ytre le fait d'un organisme 
d application, comme 1 est TOff ice, mais non Tobjectif unique d'un organisme universitaire comme 
lest un Centre de recherche comme le CIRB. 

Dans cette perspective le CIRB favorise des recherches qui permettront de faire avancer 
nos connaissances sur Tinformatique Hnguistique, sur Tenseignement et Tapprentissage des langues 
conduisant k la pratique de ces langues. sur I'e.uichissement ou la modernisation lexicales des 
langues, sur la traduction, la terminologie ca la n^ologie, sur ia didactique des langues en un mot 
(ou deux), sur les industru s de la langue. 

Pour le CIRB, la langue ou les langues sont des richesses naturelles au mfime titre que les 
autres types de richesses naturelles, des biens collectifs partag^s et en mfime temps des super- 
yaleurs sociales. Par consequent, elles doivent ytre amenagees, c*est-a-dire exploityes (\e% 
inaustnes de la langue), diff usees (lexiques, dictionnaires, terminologies), banalisees ou demyihi- 
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fi^cs (rinformatique linguistique), enseign6es ('a didactique des langues), «tre rendues d la 
communauti qui les utilise. Le CIRB veut s'appuyer sur des travaux de recherche fondamentale 
pour restituer aux langues toutes leurs fonctions et Icurs valeurs. A ce titre le CIRB j^ut jouer 
un rdle de m^diateur, non seulement auprds de la communaut^ untversitaire, mais 6galement 
aupr&s de tous les membres d'une communaute. Cette nouvelle approche ne peut etre favoris6c 
que par des travaux inter et multidisciplinaires. 

La tii^matique des industries de la langue semble s'imposer aujourd'hui aux chercheurs du 
CIRB. &. pertinence strat^gique pour le monde francophone n'est plus ft d^montrer putsque dijft 
les deux premiers sommets font identifi6e parmi les axes prioritaires des actions communes de la 
francophonie. Rdcemment, une 6tude de Denis Monnier du Conseii de la langue fran^aise du 
Quebec soulignait de fa?on explicite Turgei ce de nous engager % fond dans cette voie et de 
rclever un d6fi de taiUe en mobilisant toutes les resources humaines et matirielles, en particulier 
celles des centres de recherche universitaires. 

Le CIRB a d6j4 donn6 des signes qu'il veut bien relever ce d^fi. Ses realisations a partir 
du projet RELAI et ses r6centes publications sur ce sujet, publications qui seront lanc6es & la 
cl6ture du coUoque^ attestent qu'il s'est engag6 par ses recherches & mettre son expertise 
linguistique diversifi^e au service de la soci6t6 dans le cadre d'un programme s'itendant sur les 
trois prochaines ann^^es, II veut done s'attaquer au probldme ou & la tlche de rendre la langue 
fran^aise et mgme toute langue romane plus facitement traitable par ordinateur. Vos travaux nous 
en d^montreront la possibHlit6 et fourniront les outils qui facilitent le travail sur Tordinateur en 
fran^ais pour toutes les categories de consommateurs d*informatique* 

Ces braves remarques !iminaires ne sauraient passer sous silence la volenti du CIRB 
d'tntegrer les 6tudiants de 2* et 3* cycles k nos travaux. Ce n'est pas la premiere fois que les 
etudiants diplomas participent de plein droit k des reunions savantes organisies par le Centre et 
nous desirons que cette participation devienne une des traditions du Centre. De cette fa?on, les 
recherches universitaires prennent vraiment leur sens puisque nous contribuons ainsi & la formation 
d'une nouvelle generation de chercheurs. Qui sait si nous n*avons pas reussi aujourd'hui, grfice 
a ce coUoque, & rfiunir les Moreau, Quemada, Potier, Coseriu, Greimas, Herdan, Muller et 
Gougenheim d*aujourd*hui et de demain. 
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TRAITEMENT DES NOMS DANS LE LEXIQUE<GRAMMAIRE ET NOTION D*ADVERBE 



Dans la tWorie du lexique-grammaire de M. Gross 1975 (1981), les verbes supports (V ) 
servent a repr6scnter les substantifs pr^dicatifs h I'int^rieur du dictionnaire. Ainsi, le nom enot^^e 
correspond ^ I'entr^e (J. Giry-Schneider 1978, 1987): 

(0 N^('^Jean) (fait -t- mene) une enqu^te sur cette affaire) 



parall^lement a !'entr6e du verbe enquiie: 

(2) Jean) enquite sur cette affaire) 



Pour des noms donnes, les combinaisons verbe support - nom, illustr^es par Texemple (1), 
permeitent de construire des representations lexicales sous formes de phrases. Les rapports entre 
les noms consid6r6s et les verbes s^mantiques et morphologiquement apparent6s (e. g. entre enquite 
et enquiter) permettent d'6tablir une relation de paraphrase entre beaucoup d'entr^es du type de 
(1) (2) mais cette relation qui manque de gen6ralit6, lorsqu'on 6tudie sa reproductibilit^ sur le 
lexique, est secondaire. 

Les verbes supports servent egalement d representer les noms en position dVverbes (M, 
Gross 1988) et on 6tudiera ici des propri^tds syntaxique^$ d'adverbes encore assez mal connues qui 
mettent en jeu des verbes supports. Les adverbes que nous analyserons sont des groupes 
nominaux construits avec la proposition dans comme par exemple: 

(3) <Jean a disparu> dans des circonstances (accidentelles + inconnues) 



En graramaire trat^itionnclle le groupe dans des circonstances ( accidentelles inconnues) 
est un complement circonstantiel qui n'a pas refu d'interpretation sOmantique stable. H n'est pas 
impossible qu'on Tail n6glig6 parce que les pronoms interrogatifs ju, quand, comment, pourquoi 
lui Otaient peu applicables: 

Jean a disparu (ou -f- quand + co iment -h pourquoi) 
dans des circonstances ( accident i les -f- inconnues) 

On remarque qu'il n'y a pas d'interdiction stride sur la question comment. Toutefois le 
fait qu'il soit impossible de la pronominaliser par ainsi: 

(2) = Jean a disparu ainsi 



sera pour nous un critere pour I'exclure clairement de la classe des adverbes de manidre. 
L'adverbe en circonstance coirespond k I'entr^e 
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(4) Que P (m: Que Jean ait disparu) (a eu lieu ^ s'est produit) dans des 
circonstances Adj ( «; accidentelles * inconnues ) 

La combinaison du verbe support d'occurrence d'ivinement (Harris 1976) avoir lieu on se 
prodwre avec le nom circonstance, qui est son complement sp<h:;ifique, permet d'attribuer une 
pnrase a I adyerbe et de la faire dans le dictionnaire au mfime titre qu'un substantif pr6dicatif ou 
un vert>e ordinaire. On sait que ce traitement unifie la representation des groupes nominaux. Ces 
derniers, qu ils soient adverbes ou pridicats, son: en effet riguli^rement ins6res dans des formes 
verbales compos^es avec des supports et on voit Timportance des V,„^ pour r^tablissement du 
dictionnaire. Par commodity, appelons adverbes complexes les groupes nominaux adverbiaux qui 
entrent dans les constructions du type de (3) puisque ces constructions, en apparence & un verbe 
conjugui, le verbe principal V d'une phrase P (e. g. disparattre dans Jean H disparu), n^cessitent, 
pour etre exphqu6es, qu on ajoute un deuxitme verbe, le support (e. g. le F.,. d'occurrence avoir 
lieu oM se produire), qui sous-tendra Tanalyse il6mentaire de , verbe et son^ placement a droite 
ae y suivant un m6canisme transformationnel que nous detaillons plus loin. 

^.u ^^ ^^ presentation de quelques-uns des probl^mes que souleve rappllcation de la 

mdthode des verbes supports aux adverbes que nous allons aborder ici. Pour cela nous 
rappellerons d abord les types de contraintes distributionnelles qui peuvent s'observer dans les 
constructions adverbiales. afin de caractiriser le degri de figement des adverbes complexes que 
nous discutons (§ 2). Nous examinerons ensuite quels sont les verbes qui sont candidats, dans ces 
constructions, pour supporter les adverbes en dans comrae complements specifiques et nous 
rappellerons les m^canismes transformationnels des derivations (§ 3). Existe-t-il des advc/bes en 
dans & double port6e (§ 4)? Th6oriquement, I'adverbe peut complementer trois sortes de verbes- 
des verbes ordinaires, des verbes supports varies, des verbes operateurs. Effectuer leur tri est 
crucial pour 1 analyse (§5). Enfin quel est exactement le degre de llberte des constituants de 
groupe nominal adverbial dans nos exemples (§6)? 



2. ADVERBES UBRES ET ADVERBES FIC^S 

Pour caracteriser le degre de figement ies adverbes complexes que nous decrivons 
rappelons l exemple 

(3) <Jean marche dans des circonstances (accidentelles + inconnues } 

et contrastons-le avec le bloc d'exemples suivant: 

(4) Jean marche dans la combine 

(5) Jean est mort (dans son I'.t ■*■ sur le coup) 

(6) <Jean a (parle + repondu)> dans le droit fil de la (conversation + 
discussion ) 

(7) <Jean a ( parU -t- r^pondu)> ( avec ^ dans) une langue (etrangere + inconnue ) 
(R) <'Jean (travaille + voyage )> dans son genre. 

(9) <Jean (travaille 4- voyage )> (dans I' insouciance la plus loiale + 
insouciamment ) 

(10) ^Jean travaille du chapeau^ dans son genre 

Dans tous les cas. nous observons un complement prepositionnel en dans. Tout d'abord 
nous mettons a part les exemples (4) et (5) car ils ne comportent pas h proprement parler 
d adverbes. En effet les groupes dans la combine et dans son lit ne sont pas separable;: des verbes 
marcher ou mounr pour le calcul du sens et ne peuvent done etre analyses comme des ajouts i 
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droite d'une phrase simple P comme nous avons vu qu'il 6tait possible de le faire pour (3) ou 
Pf": Jean a dispcru) existe ind6pendamment du groupe dans des circonstances (accidenteUes 
inconnues). (A) et (5) sont des phrases figees au sujet humain pr^s. On sait que les phrases fig6es 
s'analysent syntaxiquement de fa?on r^guH^re. (4) et (5) ont un compliment de verbe en dans 
plutOt qu*un adverbe. Soumettons ce complement & quelques tests syntaxiques. On rcmarque que 
le complfiment est questionn^ par comment dans (5) mais qu'il ne Test pas dans (4). On remarque 
6galeme' t que le compliment ne s'impose pas de fagon unique dans (5) puisqu'il peut commuter 
avec le groupe sur le coup. On en conclura que (5) est moins fig6 que (4). 

Les exemples restants ont tous la mime construction. La structure 
</>«Ar^ V w> Prip Del N Modif 



en donne une image simplifiie. Dans cette structure, nous attribuons une forme ginirale Pr^p 
D^t N Modif a Tadverbe: cette forme est celle d'un groupe nominal pr6positionnel, appeii adverbe 
gin6ralis6 dans ia terminologie 'e la grammaire transformationnelle (M. Gross 1988). Dans les 
exemples (6) et (7) le verbe principal V a parU -f- r^pondu) est moins libre que dans les 
exemples (8) et (9) ou Vf^: travail + voyage) est indiffirflnci* par rapport & Tadverbe. II 
appartient & une classe spicifique qui correspond h une interpretation simantique de verbe de 
parole. Les adve>bes correspondants peuvent Hre questionnis par comment et pronominalisis par 
ainsi: ce sont des adverbes de maniere. )n remarque que le degri de figemeDt de Tadverbe est 
independant de celui de P: I'adverbe de (7) est beaucoup plus libre que celui de (6). Dans (7) le 
nom tete du groupe N f-.- langue) a son sens ordinaire; la proposition n'cst pas unique puisque 
avec commute avec dans; le modif ieur adjectival Adj (".- Hrang'ere ^ inconnue) est libre. Par 
contre dans (6) la sequence dans le droit fil de n'a pas un sens calculable & partir des mots pleins 
qui la composent droit et ///; le choix de la proposition est unique, le determinant dOfini le est 
unique, on considOrera que cette sequence occupe dans Tadverbe la position du determinant D^t 
devant le nora libre f=.- conversation -h discussion) et que D^t est fig6. 



Les exemples (8) et (9), comme on vient de le dire, ont un verbe libre, qui correspond ici 
^ I'interprrtation traditionnelle gOnOrale d'action. L'adverbe a, comme dans la paire prOcOdente 

(6) - (7), degre de figement independant de celui de P. Cest ainsi que dans le genre est fige 
et ne repond k aucune des questions traditionnelles de complement circonstanciel invoquies plus 
haut (§1). Par contre, l'adverbe de (9) est libre: il ripond & la question comment, il est 
pronoromalise par ainsi; il donne lieu ^ la formation de l'adverbe en -ment insouciamment selon 
une procedure qui met la prepositon dans en paralieie avec la preposition arec qui sert ft former 
Padverbe synonyme d une maniere insouciante. En premiere approximation, ce sont les exemples 

(7) et (9) qui ressemblent le plus aux adverbes complexes en dans que nous etudions, c'est-i-dire 
des adverbes de maniere couramment considOres comme libres. Rappelons toutefois que I'exemple 
(3) l etenu n'est pas a strictement parler un adverbe de maniere. A I'inverse, (10) est I'exemple 
le plus eioigne de (3) puisqu'il correspond deux unites de sens, la phrase et ''idverbe, 
respectivement totalement figees; mais, on le remarque, combinables ensemb'e. L'etudc ce type 
d'exemple reste encore largement ouverte. 



3. EXEMPLES DE VERBES SUPPORTS POUR LES ADVERBES COMPLEXES EN DANS 

La propriete qu^ dtfmit le mieux un verbe support est sa possibilite d'etre rOduit & zero - 
et inversement sa possibility d'etre recupere dai le mime contexte - sous des conditions definies 
par des relations transformationnelles entre phr s. Cest ainsi que V faire observe au \\ est 
reductible dans le cadre d'une relativation. Sa reduction est formalis6e pas la regie {RedVsupl 
comme le montre Pexemple suivant; 
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(11) <Paxd a lu> ienquite que Jean a faite sur cette affaire 

(11) {Redysup] 

• <PauI a lu> Venquite de Jean sur cette affaire 

r«dJ^>^ n'!I?;J^ s'^^ {'^J^^ '^ductible dan. e cadre d'une introduction cor6f6reutieIle 
de ladverbe quon redise par le biais d'un discours . phrases coordonn6es. Sa reduction est 
formalisee par la regie f Pron V z ]. Cettc regie s'.ppliquc apres qu'un lien pronom^na?^" S 
forme qui exphcite les relations cfe I'adverbe a !a phrase P, comme le montre I'exemple suivant 

(12/ Jean a disparu, que Jean ait disparu a eu lieu dans des circonstances 
( accidenieltes + inconnues ) 

(12) [PronominJ 

" Jean a disparu, cela a ru lieu dans des circonstances (accidentelles 

inconnues) 

IP^on V.,p 2.J 

- (3) Jean a disparu dans des circonstances (accidentelles + inconnues ) 

Dans les deux cas de derivation, la reduction di« va de pair avec la reduction k z6ro 
d'un pronom coref6rent relatif (e.g. que) dans la regie m Vsup]. demontrat? (e c^^^^^ 
personnel dans la regie [Pron Vsup z]. ucuiumrdui ^e.,. ceia) ou 

Quand un nom predicatif compiemente un Vsup (e,g, la combinaison verb- - nom faire une 

* ^^^^ "^^^^ ^ariantes de ce Vsup%g ll 

combmaison concurrente mener une enquite). Nous avons observe la mfime situation pour 
v!?w^ j:ircf,/w/a«c£. II ne compiemente pas seulement le Vsup awir lieu mais aussi les 
r«^i!^ L Ll?lJ2"''^'^5 ^rorfu/r^. arriyer, se faire qui introduisent naturcllement dans la 
™^ f.*^ en rfu;,s du type de (3). L'analyse de I'adverbe complexe par ces Vsup 
possede une certaine generalite. Par exemple, nous la reproduisons facilement sur I'exemple 

(13) <On a arriti Paul> dans un cadre arbitraire 

qui correspond au discours suivant: 

On a arriti Paul, qu'on ait arriti Paul (a eu lieu -f- s'est produit + est arrive ^ s'est 
fait J dans un cad'e arbitraire 



de (13) 



On voit que les Vsup d'occurrence de (3) sont de bons candidats pour analyser Tadverbe 

Pour (13) comme pour (3), on observera que I'adverbe porte sur la phrase P puisque les 
Vsup o^X unc completive Que P f-.- que Jemx ait disparu + qu'on ait arriti Paul) pour su jet 
completive dont nous avons observe la pronominalisation en cela. On acceptera mSmc assez bien 
la selection du Vsup itr,: dans: 

Jean a disparu, c'est dans des circonstan.es {accidentelles + inconnues ) 
On a arrets Paul, c'est dans un cadre arbitraire 

La mSme portee s'observe quand on nominalise P, 



17 



Analyse d' dverbes complexes 



13 



La disparition de Jean a eu lieu dans des circonstances (accidentelles ^ inconnues) 
rar testation de Pout a eu lieu dans un cadre arbitraire 

Dans r^tat actuel des recherches, la difficult^ n'cst pas de trouvtr des bons candidats pour 
supporter les adverbes comme complements sp^cifiques mais de restreindre le champ des analyses 
possibles. 



4. ADVERBES EN DANS A DOUBLE P0RT£E 

On sait que les adverbes peuvent avoir plusieurs portdes s^mantiques. Cette situation est 
bien connue pour les adverbes de manifere ( Balibar-Mrabti 1987, Molinier 1985). Consid6rons 
la phrase. 

(15) Jean marche d'une mani^re rapide 



L'adverbe porte sur la phrese Jean marche) comme le montre le discours 
(16) Jean marche, sa maniere de marcher est rapide 



mais il est possible dgalement de poser le discours concurrent 
(17) Jean marche, il est rapide 



dans lequel le sujet du support ^tre du predicat adjectival rapide, attribu6 comme source d 
Tadverbe, n^est plus la phrase nominalis^e par le pivot complexe maniere mais le sujet 
Jean) du verbe principal V marcher) que nous pronominalisons par il. L'adverbe ^d'une 
maniere rapide a done une double portee, fondle sur Tobservation des discours (16) et (17). 



On remarque que pour (3) comme pour (13) il est impossible d'6tablir un lien cor6f6ren- 
tiel, du type de celui que nous avons observe sur le discours (17), avec un des actants du verbe 
principal V de P, comme le montrent les interdictions suivantes: 

Jean est dans des circonstances (accidentelles <f inconnues) 
Paul est dans un cadre arbitraire 



Il n'existe pas, & propos des constructions adverbiales consid^rees (3) et (13), de proximite 
s^mantique intuitive entre les noms circonstance et cadre et le Vsup Hre dais, si nous voulons lui 
donner un sujet humain, cn ne pourrait pas non plus faire supporter ces mms par le Vsup avoin 

Jean a des circonstances ( accidentelles -h inconnues ) 
Paul a un cadre arbitraire 



Cette deuxidme possibility en avoir, nous int^resse moins ici car elle ne conserve pas, pour 
la complementation du verbe support, la proposition dans qui entre dans la composition des 
adverbes que nous cherchon.s a dOcrire. N^anmoins elle est un argument suppl^mentaire pour 
corroborer rinterpr6tation '.mbituelle qui est attribu^ & ces adverbes: cellc d'etre des adverbes de 
phrase et uniquement des adverbes de phrase. 
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Oe remarquc dans I'examen des compatibilit6s entre verbcs supports et groupes nominaux 
que le choix lexical de Tadjectif modifieur peut influencer autant celui du nom tfite du Rrouoe 
Par exemple on peut dire * 

Jean a tes cir Constances aitinuantes 

Mais cette phrase correspond k un parallelisme connu entre le verbe support avoir et la 
proposition avec. 

<Jecm s'en est tiri> (avec * dans) les circonstances att^nuantes 
Ce parallelisme exclut ici le choix de ia proposition dcms. 

Nous avons Otudi* ailleurs (article citO) une famiHe d'adverbes de maniere dans lesquels 
le nom tfite du groupe a un contenu s6man!ique presque vide et sert de pivot pour ia montde (ou 
la descente) de I'adjectif qui s'observe comme modificateur dans le groupe. Soit par exemple 

Jean marche (avec -t- d') un pas rapide 

Le nom /ws sert a former un complement interne d'm pas rapide pour le verbe principal 
(':' JP^^'*^'')' U «st pivot de I'adverbation dans la phrase quasi synonyme (15). On pourrait 
considOrer que les noms circonstances, cadre, de contenu sOmantique beaucoup plus g6n6ral que 
les adjcctifs modifieurs qu'ils accueillent (e.g. accidentelles, inconnues ou bien arbitraire) 
fonctionnent eux aussi comme des pivots d*adverbaUon du modificateur, en combinaison avec 
certains verbes supports dont la selection depend autent des modificateurs que des noms L'eiude 
des combinaisons de verbes supports et des noms pivots d'adverbes est encore largement ouverte. 
II existe des correlations k approfondir. comme nous venons de le voir, entre ces combinaisons 
certains adjectifs modificateurs et la preparation de groupe nominal adverbial. Notamment des 
verbes supports d'occurrence sont sei-ctionnOs par certait-s noms qui vont de pair avec la 
preposition dan5\ le verbe support avoir est seiectionne par un nom pivot comme pas et va de pair 
avec la preposition avec qui entre dans la composition de certains adverbes de maniOre. 

Existe-t-il des adverbes en dans dont la portee ne soit pas limitee d p: Considerons 
rexempie suivant: 

(18) < Jean a compris cela> dans une vision (admirable -h pr^monitoire ) des 
^vinements 

L'adverbe en vision qui s'y trouve porte sur la phrase P (°: Jean a compris ceia) comme 
Ic montre le discours 

Jean a compris cela , que Jean ait compris ceia est contenu dans la vision (admirable 
•h primonitoire ) qu'il a des ivinements 

et sur la base de ce discours nous pouvons parler, com^r, j pour les exemples precedents, d'adverbes 
complexes. Mais ft cdte de I'interdiction dejft observOe pour les adverbes de (3) et de (13) 

Jetm est dans une vision (admirable -t pr^monitoire) des ^nenemenis 
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nous disposons de la phrase 

(19) Jecn a une vision (admirable pr^monitoire ) des ^v^nements 



La phrase (19) pr^sente rinconv^nient, d6ja souligni, de ne pas conserver la proposition 
dans de Tadverbe mais elle explicite la portee du nom vision sur le sujet No Jean) de P. 
Nous avons done ici un bon exemple d'adverbe en dans t double portee. 



On aura remarqu^ rimpossibilit^ de construire une phrase en Vsup avoir lieu. 

Que Jean ait compris eel a a eu lieu dans la vision (admirable primonitoire ) qui I 
a des ivimements 



Par contre, nous utilisons une nouvelle forme pour supporter Tadverbe: le passif du verbe 
contenir. Cette nouvelle solution pr^sente Tint^rfit d'assimiler davantage que dans les cas 
pr^dicatifs le traitement des groupes nomine ux adverbiaux k celui des groupes nominaux 
predicatifs. En effet, Tadverbe n^erc piur. corime pour (3) et (13), un complement specif ique, 
mais facultatif, du verbe, II est » cnmme prur faire, ou avoir, un complement obligatoire: le 
complement d'agent du verbe. Cette situation rapproche le support itre conienu dans du Vsup itre 
dans deja utilise. 

On remarque ainsi que (19) est la nominalisation de 

Jean voit les ^v^nemenis d une fagon (admirable ^ primonitoii e) 



On peut aussi mettre en evidence une relation causative entre (18) et 

Que Jean ait une vision (admirable ^ pr^monitoire) des ^vdnemenis a fait qu'il a 
compris cela 



Cette direction d'interpretation n*existait pas pour (3) ni pour (13), La polysemie des 
adverbes, la variete des analyses syntaxiques qu'ils requierent nous conduisent & les d6crire 
individuellement. Ce statut les rapproche des expressions figees. 



5, ADVERBES EN DANS ET TRI DES VERBES COMPLfeMENTfeS 



Au §2 nous avons pose le probleme du tri des constructions adverbiales en fonction de leut 
degre de figement. Nous conclurons maintenant notre approche syntaxique de quelques cas 
d'adverbes complexes en dans en examinant le probleme du tri des verbes susceptibles d'etre 
complementes par Tadverbe. Quel statut syntaxique leur attribuer? Consid6rons pour cela le bloc 
d'exemples suivants: 

(20) Jean ^voque le souvenir de son pere dans une pensie pieuse 

(21) Jean a agi dans la pleine jouissance de ses facultis 

(22) Jean a ^volu^ dans ses idies 

(23) Jean a ^levd Marie dans la religion 

(24) Jean ^ it dans des conditions agr^ables 
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rw.-. exemples sont disparates. Dans quel cas avons-nous affaire k un verbe ordinaire? 
Uans quel cas ft un verbe support? Peut-on mfime parler de verbe operateur appliq'- a une 
phrase en verbe support (M. Gross 1981)? m a unc 

L'exemple (20) nous ram^ne k Texemple en adverbe complexe 

(18) Jea» a compris cela dans une vision (admirable + nremonitoire) des 
^v^nements 

dans lequel I'adverbe a une double port6e puisqu'il est aisd de le relier au discours 

Jean iyoque le souvenir de son pere, (c'est + // est plonge) datis une pens^e pieuse 

« *^^^J^ deuxi*me membre de ce discours, deux verbes sont en effet possibles pour 
supporter 1 adverbe et ils ont respectivement pour sujet la phrase P f-. j^an i»oque le souvenir 
de son p^re) que nous pronominalisons pai ci- le sujet No Jean) que nous pronominalisons par 
//. On aura remarque que le verbe support compatible avec le sujet humain est une forme passive 
Q\iytTX>e ptonger. Cette particularity est un argument suppl6mentaire pour rapprocher (20) de (18) 
pmsque dans les deux cas I'adverbe compl^mente un Vsup de forme passive. Mais dans (20) \re 
plongi dans a un sujet humain tandis que dans (18), on Pa vu §4, Hre contenu dans avait au 
contraire un sujet phrastique. 

•^a'Io"^^/"'"?"^ ^^^^^ norainalisation k propos du nom tete A' pens^e) de I'adverbe 
consjd6ry? Nous ferons alors ^tat de ia paire y ^ 

Jean pense d son pere pieusement 

« Jean a (une + des) pensee( s) pieuse(s) pour son pere 

I ^ J} ^^aible que cette paire soit d'utilisation difficile ici car on ne voit pas comment justifier 
les diff6rences de propositions (e.g. d son p^re vs pour son pere) d'ailleurs absenie«! de la forme 
adverbiale 4 analyser dans une pensee pieuse. 

L'exemple (21) pose le probl6me des rapports entre !es adverbations et les nominalisations 
a partir de donndes plus int6ressantes. Corame pour (20) montrer qu'il s'agit d'un adverbe 
complexe compl6mcntant un verbe ordinaire ne pr6sente pas de difficulte particuHdre. On 
anaiysera le groupe dans la pleine jouissance de ses facult^s au moyen du discours suivant: 

Jean a agi, (c' -t- il) est dans la pleine jouissance de ses facultis 

Ce discours nous montre que I'adverbe a, 14 encore, une double port^e. On remarque 
surtout que le Vsup itre dans prdsente la particularity de nominaliser la phrase 

(25) Jean jouit pleinement de ses facult^s 

lorsqu'ii est appliqu6 au sujet jean) de la phrase P. Autrement dit. nous disposons ici de 

la paire 

(25) = Jean est dans la pleine jouissance de s-'s facultis 
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On conna!t en fran?ais ia complementarity qui existe entre la proposition darts et la 
proposition en. Avec la proposition dans il faut un determinant. Par conlre ia preposition en se 
construct sans determinant comme le montrent par exemple les phrases 

Jean est dans une colere noire 
Jean est en colere 



Nous rapprocherons la nominalisation que nous venons d'observer de la relation etudiee par 
D. de Negroni-Peyre 1978 sur une paire comme 

(26) J€(m voyage 

« Jean est en voyage 



Les formes verbales qui sont candidates poui Tanalyse des adverbes complexes en 
dans sont done variees. Aux verbes supports d'occurrence vus au §3 tels que avoir 
lieu, se produire, ar river, se /aire, s'ajoutent des formes passives telles que iire contenu dans, itre 
plong^ dans. Ce deuxidme type de support presente Tinterfit de contraindre fortement Tadverbe 
en dans puisquc celui-ci n*est plus introduit comme complement specifique mais comme 
complement d'agent. On vient de voir qu'il faut ajouter & notre inventaire un troisieme type de 
support: le Vsup itre dans fonctionnant, d la maniere du Vsup itre en^ comme support de 
nominalisation. 



A propos des complements en dans des exemples (22) k (24) nous ne pouvons plu5 effectuer 
d'analyse qui mette en jeu des discours. L'exemple (22) est la restructuration (A. Guillet, C 
Leclere 1981) de la phrase 

Les idies de Jean ont evolud 



(22) est done une phrase simple dans laquelle ivoluer est un verbe principal V ordinaire. 
Le groupe dans ses idees compiemente directement le verbe sans que son analyse passe par retude 
d'une construction adverbiale en verbes supports. Cet exemple retient notre attention dans la 
mesure ou la transformation de restructuration donne lieu, entre autre, & des complements en 
dans, dont le sens, on s'en aper^oit immediatement, se rapproche de celui des adverbes que nous 
avons decrits. Dans le cadre de cet article, nous n*avons pas cherche & savoir si cette transforma- 
tion pouvait jouer un r61e comparable k celui du passif, ou meme des nominalisations, pour 
ranalyse d*adverbes complexes donnes. 



Considerons main:enant Texemple (23). II pose un probleme different des exemples 
precedents, celui de savoir si nous devons analyser le verbe elever qu*il contient comme un verbe 
ordinaire ou comme un verbe operateur. La decision depend de Tacceptabilite d'une phrase en 
verbe support sur laquelle il puisse s*appliquer. Pouvons-nous accepter 

Marie (est ^ vil) dam la religion 



Si nous acceptons la phrase en vivre, elever sera considere comme operateur. On sait en 
effet que vivre a le statut d*une extension lexicale du verbe support ^Ire Pr^p pour Prdp dans 
(L. Danies 1980, 1988) comme le montre Texemple 

(24) Jean vii dans des conditions agriables 
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Dhm.P f^^rn^Ifuf^l^f^^^ pas vivr^ comma extension de Vsup, le caract6re tr^s contraint de la 
Phrase (23) nous le fera consid6rer comme une phrase comparable H 

(5) Jean est mart dans son lit 

discut^e au §2 done comme une phrase fig6e avec un verbe ordinaire. 

6. COMPOSITION DU GROUPE NOMINAL ADVERBIAL 
Reprenons notre exemple initial 

(3) Jean a disparu dans des circonstances (accidentelles inconnues ) 

TceTdrco^t^es^^ ^^^^^ constituants du groupe Di. N Modi/: Jean a disparu dans 

Aligner sous (ces circonstances 

^ de telles circonstances 

+ des circonstances ( accidentelles ^ inconnues ) 

+ des circonstances des plus graves 

^ des circonstances que tu connais 

+ une circonstance d ^lucider 

> les circonstances (d'un accident 



Aligner sous (d*un accident 

^ de Vaccident 
^ que tu connais 
+ les plus graves 
^ habituelles 



Jean a disparu dans ( circonstances 

♦•♦Aligner sous (circonstance 

+ des circonstances 

+ des circonstances (d'accident 
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Aligner sous (d*accident 

4- d'un accident 
•¥ de Vaccident 



Aligner sous ( circonstance 

+ une circonstance 

la circonstance 
^ les circonstances ( accidentelles inconnues ) 
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Trois remarques s'imposent. To'Jt d'abord, le determinant passe difficilement du pluriel 
au singuher done la variation en norabf est preique interdite. Cette particularit* est un indice 
de figement du groupe nominal. Ensuite, I'acceptabilit* du determinant plurieJ d^iwnd du choix 
des modif:eurs. Ce phenomdne correspond aux gfoupcs ft modifieur d'unicite d^crits par M. Gross 
1977. Enfin on notera la complexity de detail des contraintes enumer6es. A ce propos, ajoutons 
I'observation que les modificatcu»c sent cumutables comme le montre la phrase 

Jean a disparu dans les cir Constances accidentelles que tu connais 



Les paires siMvantes: 

- Jean a disparu comment? 

- En la circonstance 

- Nous rtous sommes obstenus comment? 

- Dans les circonstances aciuelles 



associees respectivement aux deux phrases attestees 
Jean a disparu et; la circonstance 

Nous nous sommes abstenus dans les circonstances actuelles 



montrent que Tadverbe change d'interpretation semantique et de proprietes si on remplace dans 
par en ou si on choisit un adjectif approprie comme actuelles pour modifieur. 



7. CONCLUSION 

Les adverbes en dans que nous avoni discutes sont appcies adverbes complexes quand leur 
caracterisation syntaxique met en jeu des discours a deux membres. Par cette methode ils 
apparaisscnt naturellement dans la langue pour complementer des types de verbes supports (verbes 
d'occurrence d'evenement, formes verbales passives, Vsup itre dans). Consideres conmme des 
formes hbres, ils sont toutefois soumis d des contraintes nombreuses et imprevisibles a priori, 
quand on examine en detail la composition du groupe nominal introduit par la preposition et pour 
les decrire nous avons fait une liste de combinaisons autorisees. Si on mpproche ce constat de 
Tobservation qu'ft rechelle de la phrase chaque construction adverbiale a present* sa convergence 
propre de proprietes, nous en conclurons que la grammaire des adverbes Hbres, d travers les cas 
que nous avons traites, est peu differente de celle des formes figees. 
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0. pr£ambule 

Ce texte^ n'a pas pour but de presenter des outils ou des m6thodes informatiques & ceux 
(chercheurs, gestionnaires, d^cideurs, etc.) dont la lecture et Tanalyse du contenu des textes 
constituent la principale activite. Son objectif est plutdt d'exposer les besoins et les attentes de 
ces dern'ers & ceux (linguistes, informaticiens, etc) qui les 61aborent. Mfime si les outils et les 
m6thode i informatiques pour la comprehension des textes n'ont ce.ssd depuis les trente derniires 
ann6es de se diversifier et de se perfectionner, tant sur le plan de la performance que de celui de 
la validity tWorique, une insatisfaction persistc. Dans les pages qui suivent, au lieu de poser un 
diagnostic outil par outi , nous tentons de remonter les sources de cette insatisfaction. 



D*s lors que Ton appr^hende cet objet mouvant et volatile qu'est le texte, les probl^mes 
se posent nombreux. Car, au-deld de la dimension proprement informatique, toute entreprise 
d'automatisation de la lecture repose sur ces que tl la fois ei6mentaires et extrfimememt 

complexes de savoir ce qu'est un texte et, plus fc id. alement encore, ce qu'est I'acte de la 

lecture. L*6Iaboration de mfime que I'utilisation d'outils informatiques d^di^s ^ Tanalyse de textes 
nous apparaft triputaire de la r6ponse ^ ces deux questions n6vralgiques. 



Deux types d'outils d'analyse de textes se disputent la faveur des "travailleurs du texte""*. 
D*une p-^rt les analyseurs lexicographiques produisent des lexiques (listes de mots) et des 
concor Linces (hste de mots accompagn^s d'un segment de leur context* ). D'autre part, les 
analyse s morpho-syntaxiques associent aux phrases d'un texte les elements d'une description 
structuraie. 



Ces deux types d'outils ont €tt associes plus ou moins exactement & deux methodologies 
d'analyse des donnees textuelies qui, depuis toujours, sont tenues pour opposies: Tanalyse 
quantitative oii un maximum d'indices est pris en compte et Tanalyse qualitative oO seuls quelques 
indict.* juges pariiculierement significatifs sont consid^r^s. Cette opposition methodologique a 6t6 
transposee sur le plan des families d'outils informatiques. Les analyseurs lexicographiques sont 
utilises pour produire des analyses quantitatives bashes sur des calculs statistiques, alors qu'on 
attend des parseurs une description exhaustive permettant des analyses qualitatives. 



Chercheur ru Centre d'Analyee de Textes par Ordinateur, Ph D en philologie m^j#vale, fidition critique d'un trait* 
olchimique Istin: lAker »ecr«?torum . 

Asaitftftnt d« rech-^rchc* au ddpart€m«nt d© eocioJogie, r^dige une th^ de doctoral en snalyM du dUcoura. 

^L<?s auteun? participant dcpuia janvier 198B ^ un proj^l de r«:harche, initios par Jules Du^oetel, ayant pour objectif 
l*6laboration d'un Syaikme d'Analyd« de Contenu (dee text^) Aiwiat* par Ordinateur (SACAO) finance par !e 
Fonde FCAR du Qu*be< dane lo cadre du programme tactions 0pontan^». lU tlannent 4 eouligner la pr^Uute 
contribution de Luc Duptty avec hquel i\s ont tenu dee diacuasione enHchieaantes. 

Lfe maecuUn aet utiUa^ de fa^on g^nSrique et inclut la formulation feminine. 
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La pauvret6 de certains r^sultats obtenus par des analyses lexicales imputables i une 
formalisation insuffisante des donn6es textuelles a fait croire en la primaut<* du second type 
d*outiIs sur le premier. Un tel raisonnement repose sur une definition implicite suivant laquelle 
la langue naturelle correspond d un ensemble fini de rdgles circonscrivant un univers de 
«possibles)». Or la superiority pr6sum6e du « parsage » en analyse de texte est discutable pour 
peu que le texte soit consid6r6 dans toutes ses dimensions et dans toutes ses manifestations. En 
effet, la description attendue des parseurs, bien qu'exhaustive, ne recouvre qu'un systeme du texte, 
celui qui r^git Tenchalnement et la hidrarchisation des mots. II en r^sulte que les autres 
dimensions (la r6firenciation, la thematisation, ractantialit^, Tintertextualite, etc.) resteni d couvrir 
et que Tanalyse doit fitrc produite par d'autres moyens. 

Face i la complexity de I'analyse des donn^es textuelles, nous proposotis de troquer 
rautomatisation de la lecture experte pour I'assistance ^ la lecture experte. Cela aura pour effet 
de priviiygier la creativity du lecteur plutdt que Texhaustivity mycanique d'une description ne 
recouvrant que particllement ce qui est rechcrchy dans les textes. Loin de rejeter Tun ou Tautre 
de ces types d'outils, nous proposons de les enrichir mutuellement en les integrant dans un atelier 
« textuel » et surtout en calibrant la portee de leur intervention en fonction d'une mythodologie 
respectant les prymisses de celle qui avait cours avant Tutilisation de Tordinateur. 



1. LA LECTURE EXPERTE DES TEXTES 

Notre groupe de recherche s'est constituy autour d'un besoin particulier en matiyre 
d*analyse de contenu de textes. Celui qu'expriment chercheurs, gestionnaires, dycideurs, de tous 
horizons oeuvrant au sein d'orgaaisations grandes productrices de textes. Leur rapfK)rt aux textes 
yarie en fonction de leurs objectifs; accumulation de faits, d'yvenements ou de connaissances, 
interprytation, elaboration de strategies, prise de dycision, etc. Dans le mouvement sans cesse 
Croissant de la technocratisation de la decision et de la gestion rationaliste de projets, les grands 
appareils, qu'ils soient privys ou publics, en sont venus a une production textuelle - faite de 
rapports, de directives, de projets ou de pry-projets - dont le volume grandissant a peu & peu 
rendu impossible leur exploitation veritable. Bref. ceux dont la lecture et I'analyse de texte 
constituent Sa principale activity, les travailleur<? au texte, croulent sous la m ; de documents 
qu'ils doivent analyser. 



Mais qu'en est- 11 de cet objet texte? 

Les mots « tissu » et « texte » ont une racine latine (textus) commune. Les realitys 
dysignyes se caractyrisent par un enchevfitrement, dans un premier cas, de fils dans une trame et, 
dans le second, de systemes dans I'espace discursif. II n'y a ainsi de dyfinition valable du texte 
que minimale: suite d'ynonces ecrits en langue naturelle et enregistres sur un support (papier ou 
magnytique). Pour le travailleur du texte, le texte est, au-deia de son apparence premiere, un 
objet stratifiy qui ne se ryduit pas plus k I'ensemble des mots qui le composent qu'aux relations 
ryunissant ceux-ci en ynoncys ou encore a un conienu pur et simple. 

Le texte prend de multiples formes en fonction du projet communicationnel qui lui est 
assigny: etudes, rapports, directives, dycrets, ryponse en format libre & des questionnaires, 
retranscription d'entrevues, etc. Certes, le document se donne de prime abord comme contenu pur 
et simple. L'acces & ce contenu fait toutefois appel & un ensemble d'habiletys dont on sous-estime 
peut-etre la complexity. II nycessite bien sQr Taccomplissement de tflches qui, prises une a une, 
seraient informatisables: dychiffrer les caractdres qui forment les mots, reconstituer I'enchainement 
des mots en ynonces et la succession des enoncys en un contenu specifique. Cependant cet 
ensemble de competences s'avdre insuffisant. Non seulement une connaissance minimale de 
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Tunivers particulier du texte est-elle essentielte, mais encore le lecteur doit-il disposer d*un savoir 
renvoyant aux conventions sociales r^gissant T^nonciation et au champ de Tinterdiscursivit^ 
constitutive du discours dans la soci^t^ moderne. Arrfitons-nous un inst&nt sur ces aspects 
fondamentaux de la discursivit6. 

Le texte, comme discours, d^borde largement Tunivers clos de la rationality de son objet 
ou des categories qu'il met en oeuvre. 11 s'organise dans une ^conomie de I'^nonciation tout aussi 
porteuse de sens que les objets de ia r6aliti qu'il d6signe nomm^ment au lecteur. Le texte connote 
ainsi les objets qu'il aborde tout autant qu'il les d6signe. L'ironie, Thumour grin^ant, la d6f6rence, 
le discours d'autorit6 et combien d'autres dispositifs sont autant de pr(K:6d6s discursifs que le 
lecteur expert doit reconnaltre et int6grer & son analyse globale du texte. Cette dimension 
constitutive du texte le pose en objet & « decoder >► au-deli des regies proprement linguistiques 
qui le structurent. 

Mais il y a pU»^ Le texte doit 6galement 6tre situ6 dans Tespace s(K:ial qui le porte et dans 
les rapports de forces dans lesquels ii s'ins^re. Le texte est toujours ti$s£ de procM^s ou de 
strategies. Pourquoi en est-il ainsi? Pourquoi est-il davantage que ce quMl dit explicitement? 
Parce que dans la society moderne^ oO les representations du monde se sont affranchies du 
inonolithisme et de la censure, Tespace dans lequel se meut le texte est celui d^un pluralisme ou 
chaque discours dans un domaine donne coexists avec un ensemble de representations concurrentes. 
Dans un mouvement le plus souvent imperceptible t Toeil nu, il converse avec quelque invisible 
interlocuteur, repond implicitement 4 ses detracteurs et appelle & sa rescousse ses allies du moment. 

L'interlocuteur absent ou invisible est celui qui hante le discours ou le regarde de 
Texterieur mais qui d'une manidre ou d'une autre le pose, par sa seule co-presence comme point 
de vue dans Tunivers de tous les points de vue possibles. L'autre dans le discours c'est le rappel 
de la contingence d'une parole e^ done de la volatilite de la verite qu'elle pretend fonder Cette 
modalite de la discursivite dans la societe moderne, en vertu de laquelle la co-presence dans 
Tespace discursif de discours condamnes au dialogue permanent, a et6 saisie sous la notion 
d'interdiscursivite. Nous verrons maintemant quelle importance capitale revSt cette particularite 
du dicours pour Tanalyse de texte et pour Teiaboration d'outils de support. 



Mais qu'en est- II de la lecture? 



Nous avons affirme que le texte est polyphonique, traverse par les contraintes auxquelles 
le soumet Tespace pluraliste du discours dans lequel il se deplace et soumis & des modalites 
d*enonciation definies en societe. Nous avons avance qu'il est en cela deploiement de strategies 
discursives. Le decodage des strategies mises en oeuvre dans les textes - menees sur ses multiples 
registres (morphologique, syntaxique, rhetorique, etc.) - mobilise une expertise aussi vaste que 
variee. Or, malgre la complexite du processus discursif, un lecteur humain est en mesure, & un 
degre ou 4 un autre, de faire une lecture experte des textes qu'il aborde. 



Cette capacite resulte du procds de la socialisation dans la fouiee duquel se constitue une 
connaissance du monde extraordinairement ramifiee. La realite, au-deli de ses manifestations 
empiriques, fait Tobjet dMnterpretations mobilisant tout autant les dimensions affective, culturelle 
qu'intellectuelle. En somme, lire un texte c'est tout & la fois prendre connaissance de Tinformation 
« brute >^ quMl contient, considerer le dialoguisme que nous avons evoque, s'y situer comme tiers 
et juger de la valeur de Tensemble a partir de criteres extrSmement complexes. Cest ce que nous 
appellerons la lecture experte. Mais cette expertise est paradoxale car elle reieve d'un impcns6 qui 
fait en sorte que le lecteur est le plus souvent dans Timpossibilite d'enoncer les criteres explicites 
qui le guident. 
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Or on ne peut rcnoncer au recours & I'ordinateiir pour analyser les textes sous pr^texte que 
les algorithmes qu'il peut mettre en oeuvre s'av6rent incapables dans un avenir pr^visible de 
reproduire I'expertise humaine. Nous reconduirions a!ors )e probldme 6voqu6 d^s le d6but 
touchant fa masse sans cesse croissante de testes en attente d'etre analyses e la rigueur que ce 
travail n6cessjte. La solution nous serable rdsider dans la ^-^conciliation de» deux formes de 
lecture: il s'agit de mettre a la disposition du lecteur des instruments h Paide desquels son expertise 
puisse etre mise & profit, en mSme temps qu'il puisse lui garantir une capacity de lecture 
augment^e en termes de volume, de rigueur, bref de syst6maticit£. 

Rappelons d'abord le cadre ^ I'int^rieur duquel s'est traditionnelleme.it d^ployee !a lecture 
experte. Nous verrons ainsi ce que nous pouvons retenir de cette methode dans Tinformatisation 
de Tanalyse de contenu. 



2. L'EXTRACTION ET L' ANALYSE PRt-INFORMATIQUE DES DONNfeES TEXTUELLES 

La lecture effectu^e par les travailleurs du texte n'a pas pour but d'epuiser les 
significations possibles d'un texte, mais d'en extraire des donn^es en fonction d'interfits qui leur 
sont propres. L'extraction s'effectue en deux temps: la selection d'un segment porteur de donnees 
est d'abord op6r6e puis saisie, habituellement sous la forme de fiches. Les donn6es extraites sont 
par la suite analysees. L'analyse prend la forme d'un classement des fiches recueillies pour 
r^organiser les donnees en sous-textes. 

L'extraction des donn6es textuelles n6cessite d'abord la capacity de distinguer les contenus 
renvoyant au rdel des 61(Sments de disccurs. II s'agit ensuite de ramener les formes diff6rentes qui 
ont la mdme signification k une forme canonique. Parmi les contenus renvoyant au reel, les 
contenus pertinents sont s6!ectionn6s. Cette selection sera arbitraire si elle est fond6e sur' des 
critferes souterrains, consistante si les crit^res decoulent d'hypothdses explicites. Les fiches ont 
longtemps constitu6 une methods privilegi^e de retention des donnees s61ectionn6es. Ses regies de 
redaction, fort simples, (format fixe, conventions d'6crsture, choix de mots-cl6s, mise en contexte 
de I mformation, rdf6rences, etc.) permettent de mener une analyse a grande echelle. 

L'analyse consiste d isoler des regularit6s et des ruptures dans le materiel recueilli. Les 
fiches sont manipul6es pour constituer des piles repr^sentant des inventaires ou des configurations. 
Deux options mfithodologiques sont possibles: l'analyse sera qualitative si peu de fiches consid^rees 
trds reprisentatives sont retenues; elle sera quantitative si le plus de fiches possibles sont prises 
en compte. Cependant plus le nombre de fiches est 61ev6, plus il devient difficile d'etre 
syst6matique, les r6gularit6s observe 6tant beaucoup plus le resultat d'une mise en forme de 
I'lntuition que du calcul precis des unites retenues et de leur comportement. 

Ce mode d'extraction des donnees textuelles laisse bean ip de place k I'improvisation. 
La motivation du lecteur k tendre la main pour prendre une fic ierge et la remplir tient tout 
k la foic de Texistence d'un seuil declencheur conjoncturel (dont ia regie qui le commande n'est 
pas claireraent formulae) que de I'anticipation de I'importance d'un segment fondle sur I'expertise. 
Les difficult6s relives k la systematisation de l'extraction sont bien 6videmment amplifi6es si la 
tftche est confine h une 6quipe de travail. II est trds difficile dans ce cas de s'assurer de 
runiformit6 de l'extraction tant I'expertise des lecteurs relive ultimement de dispositions 
intellectuelles et culturelles individuelles, au-del4 de I'uniformite relative qu'a pu produire leur 
socialisation. De plus, il est impossible de vaHder I'exhaustivitd, de verifier si on a laiss6 passer 
de bonnes occurrences. 

Nous voil4 done en face de deux caractdristiques principales de l'analyse pr6-informatique 
des textes, caracteristiques inh^rentes d I'acte de la lecture lui-mfime: l'analyse procede d'une 
lecture experte du texte en vertu, nous I'avons dit, de dispositions intellectuelles et culturelles 
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acquises, en meme temps qu'elle est soumise k Tarbitraire d'un travail ignorant des regies 
souterraines qui le fc ient. La lecture experte souffre done d'un manque de rigueur rendant sa 
validation difficile. \t ailleurs, les proc6d6s conventionnels d'analyse de textes interdisent ft 
toutes fins pratiques it: traitement de corpus de grande envergure typique des organisations. A 
la n6cessit6 de syst6matiser la lecture s'ajoute done celle de pouvoir appr6hender de grands 
ensembles textuels. L'ordinateur nous apparait 6tre le seul outil susceptible de rfesoudre une part 
de ces probl^mes. 



3. L'INFORMATISATION DU REP^RAGE ET DE L'ANALYSE DES D0NN^:ES 
TEXTUELLES 

Les avantages d*une extraction des donn6es textuelles bas6e sur la lecture humaine experte 
s'accompagnent done d'incrnv^nients qu' il importe de palier. Elle n'est ni rigulidre ni 
syst6matique. De plus, il est impossible en cours d'analyse de changer les hypothecs sans avoir 
t reprendre la demarche k z6ro, ce qui empfiche une approche constructiviste de I'analyse. E)6s 
Tapparition de l'ordinateur, on a tentS de le mettre h profit pour rep6rer et analyser les donn^es 
textuelles en raison de sa rapidity d'ex6cution et de la r6gularit6 avec laquelle les tSches r6p6titives 
sont accomplies. 

Les methodologies de lecture des textes au moyen de l'ordinateur p:opos6es aux travailleurs 
du texte tombent en deux categories. La premiere est fondde sur la production et I'examen de 
listes ordonnees de mots, alors que la seconde tient compte de leur ordre dans le texte. Nous 
verrons pour chacune d'elles: leur pr6suppos6, le type d'analyse produite, leurs limites et les 
ameliorations qui ont ete apportees et celles qui seraient souhaitables. 



La lecture lexicale 

En premier lieu, l'ordinateur a ete considere comme un outil de calcul; son recours a 
produit des analyses de textes strictement quantitatives. Le presuppose theoriqve est que I'ordre 
des mots n'influe pas sur la signification d'un texte; dans cette perspective, le texte est vu comme 
une population de mots. Dans un tel contexte, aucune hypothdse d'interpretation n'est necessaire 
et un seul critere de reperage des formes significatives est applique: toutc chaine de caracteres 
separee par des « blancs », Le reperage con«;;ste ^ utiliser des algorithmes de tri pour produirc 
des listes de mots ordonnees selon des criteres alphabetiques ou leurs frequences d'apparition 
(lexiques). 

L'analyse des textes prend la forme de calculs statistiques decrivant la distribution des mots 
dans le texte en fonction de leur frequence ou encore le texte est partitionne et les lexiques 
differents sont compares pour etablir la distance et la proximite des parties entre elles. Les 
analyses produites k partir d'une conception du texte exempte de connaissance, tant du systfeme 
de la langue que du contenu des textes se sont averees insatisfaisantes. Des ameliorations ont 6te 
apportees dans pltisieurs directions. 

Les differentes desinences d'un meme mot sont ramenees k une forme canonique 
(lemmatisation) afin que les frequences prises en compte lors des calculs refietent la distribution 
des mots et non pas leurs flexions. Cette mise 4 profit d'une connaissance Hnguistique minimale 
permet d'op6rer une reduction dans le materiel et d'obtenir une plus grande precision. Les formes 
nominales et adjectivales sont ramenees au masculin singulier; par exemple, les foi.nes bons. bonne, 
bonnes sont etiquet6es hon. Toutes les formes conjuguees de tous les radicaux des vCrbes sont 
ramenees & la forme infinitive; par exemple, les formes voulais, voudrions, voulu, etc. sont 
etiquetees vouloir. Ce principe peut etre etendu de la morphologie ft la semantique pour que 
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I'analyse de la distribution ne porte plus sur lei unites lexicales mais sur les unites s^mantiques 
et formes nominales. adjectivales, verbales et adverbiales. Elles peuvent etre ramen^es & leur 
radical; par exemple aux formes volenti, fofontaire, wutoir. wlontiers et une meme etiquette peut 
leur Stre accol^e. 

Un systfeme de categories issu d'hypothfeses explicites quant t Tinterpr^tation du texte est 
pro;et6 sur !e texte; les dfinombrements sont par la suite effectu6s sur les categories et non plus 
sur les mots. Ainsi, par exemple, tous les noms propres d^signant des lieux de mfime que les 
adverbes de lieu peuvent etre regroup^s dans une categoric etiquette espace. Les categories 
peuvent etre inscrites dans une hi6rarchie en vertu de critires th6oriques. Une certaine 
connaissance du contenu du texte est ainsi introduite, ce qui force le lecteur & expliciter, non 
seulement les elements textuels susceptibles d'6tre porteurs de sens» mais aussi d'arrdter les cr'itdres 
t partir desquels ceux-ci seront retenus et comptabiIis6s. 

L'analyse portant sur la distribution des mots dans les sous-textes est compl6t6e par le 
^elev6 du co-voisinage de mots tenus pour importants. Etes concordances sont effectu6es (mots- 
cWs accompagn^ de leur contexte) et, pour chacun des mots, un lexique est constitu^ sur 
rensemble des contextes rapport6s. L'examen de la co-occurrence des mots permct de d^pister 
des associations lexicales qui t6moignent de la structuration de I'univers notionnel. Cette procedure 
permet un traitement statistique partiel de la mise en sequence des formes lexicales. 

L'interactivit* des dernidres g6n6rations d'ordinateurs a favoris6 la lecture plurielle. Les 
deux 6tapes cons6cutives de la lecture, rep^rage et analyse des donn6es textuelles, peuvent dtre 
accomplies de fa^on cyclique. II est devenu possible de relire plusieurs fois un texte selon de 
nouveaux rdseaux d'hypothdses, dans la mesure ou d'autres elements pertinents k I'analyse sont 
identifies et etiquetfis. Sur la base de cette approche « construite » du texte. il deviendra possible, 
par exemple, de ramener de maniere automatique et syst6matique des formes diff6rentes qui ont 
la meme signification. 

Cependant, malgre les ameiioratioas dont eile a fait Tobjet, Tanalyse lexicale souffre 
toujours d'importantes lacunes. La mati^re textuelle se retrouve disloquee au terme du processus 
informatique, de telle sorte que Texpertise ne peut intervenir que de maniere retrospective pour 
tenter de donner un sens aux rdsultats de I'analyse, certes precis et verifiables, mais coupes du 
contexte de I'dnonciation. Pour palier cet inconvenient, I'interet s'est deplace vers I'utilisation des 
parseurs. 



La lecture syntagmatique 



Le projet d'informatiser la lecture huraaine par la description grammaticale des phrases 
d'un texte a €xt formul6 dfes Tavfenement des langages de programmation dedi6s & la manipulation 
de structures symboliques, tels LISP. L'ordinateur n'est plus perfu striC'ement comme un puissant 
calculateur, mais comme un outil de modeiisatiou sophistiqu6, capable de g6rer et d'accomplir des 
taches r6serv6es jusqu'alors au cerveau humain; d'ou le terme «intelligence artiflcielle» Le 
presuppose qui fonde I'entreprise d'elaboration d'algorithmes de description (pars rs) des phrases 
est que Tapprehension d*un texte passe par la connaissance de la structure des phrases qui le 
composent. 11 s'agit de segmenter les enonces dans leurs constituants syntagmatiques, de les 
identifier et d'expliciter leurs rapports internes. 



II est trfes tot apparu qu*il s'agissait d'une tache tres complexe. Le savoir-faire accumule 
lors de I'eiaboration de compilateurs (procedures visant & traduire des programmes ecrits en 
langages source en instructions machine) ne s'est av6re que partiellement operant puisque les 
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langues naturelles ne constituent pas des syst^mes ferm6s, mais ouveris et que rambiguiti est 
pr^sente k tous les niveaux. Cest ainsi que Tanalyse des textes a 6t6 assujettie a une description 
Imgutstique des textes (voir fig. 1). 

FIGURE 1: 
Analyse lingristlque m^caniste 




fitvesu morpliot^tque 

reconnalssar^e du rftle <tes mots 



niveau syntaxti^ 

sgencenwit des mots d^s )a proposuit^ 



articulation <Ai dtvelof^)ement fttfrr^el du contenu 



niveau pngmsUgue 

modamts tf^fwwriation 



o 




Le texte est alors appr6hend6 comme une superposition de structures, Le niveau 
morphologique consiste en la reconnaissance du rdle des mots. Le niveau syntaxique proprement 
dit fait ressortir ragencement des mots dans la phrase; d'abord Tassujettissement des mots & une 
tfite pour constituer des groupes ou syntagmes, nominaux, pr^positionnels ou verbaux; puis les r6Ies 
que tiennent les syntagmes dans les propositions; et enfin Tarticulation formelle des propositions 
en phrases. Le niveau s^mantique fait correspondre les mots ou syntagmes & des situations du 
monde: cas (agents, patients, instruments, etc.) rdles discursifs (th6me et propos); r6f6rence 
(quantification, determination, modulation, etc.); modaIit6s (n6cessit6s. possibility, obligation, 
probability); temporality. Le niveau pragmatique enfin s'intyresse aux modalit6s d'^nonciation. 

Si le module Hnguistique est le plus prometteur, son choix pose de noniureux r/roblfemes. 
La formalisation des langues naturelles n'est que partielle, il reste des zones obscures non- 
nygljgeables telles Tanaphore, la coordination, les formulations incomplites, etc. Si les theories 
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du fonctionnement de la langue foisonnent, toutes sont partielles et aucune ne fait I'unanimite. 

h!!^; ^ thdorie du parsage. c'est-^-dire la fafon dont les algorithmes doivent etre dessin^s, 
est en devenir et se d^veloppe au rythme des tentatives de construction. 

«vnt«o JfjnL^H "T*''^ Probl^me pos6 par le d6veloppement par tentatives. Une description 
r^n^^^lrr JV ^^n^' ^'''^^^ ''"^ " ""^ cat^gorisation morphologique des 

?^**V effectuer cette operation avec efficacit^, il faut mettre sur pied un 
dictionnaire oO 1 information morphologique est consignee en regard des mots. Toutefois, un tel 
dictionnaire ne peut une fois pour toutes etre compl6t6. car le type et le format de son contenu 
et le rapport qu il devraif entretemr avec les procedures ne sont pas encore fixes; on ignore encore 
le niveau de sous-cat6gorisation n^cessaire pour un fonctionnement optimal des procedures de 
parsage. 

Les probldmes dont nous venom de faire dtat n'ont pas emp^ch6 le fait que des parseurs 
ont construits et appliqufs ft de grands ensembles de texte.. lis produisent une description 
arborescente mettant en Evidence les relations de d^pendance contextuelle des mots Ces 
informations permettent la constitution de lexiques de mots qualifies par la syntaxe. Une analyse 
de type lexical peut done etre men6e en tenant compte de propridtes semantiques des 6nonc6s 
A titre d Illustration, deux exemples ont €t€ retenus: la th^matisation et la determination nominale* 
Dans le premier cas, un lexique des mots qui occupent la premiere position de la phrase peut etre 
^MrHAt™-!?'* de ce dont on parle dans le texte. Dans le second cas, comme le determinant 
n ^ A Mi dating" 6s. il est possible de constituer pour chacun des mots determines un 
lexique de determinants, il est aussi possible d'extraire du lexique global les mots qui ne 
concourent pas dircctement ft la thematique du texte. De meme, on pourra dans les deux cas 
produire pour chacun des mots des indices de thematisation et de determination. 

Ces tentative d'utiliser la description syntagmatique dans des analyses de donnees textuelles 
connaisynt un succes mitige. Comme nous Tavons souligne le fonctionnement des parseurs n'est 
SJ^tfp°T^°»f,>!:ii? ^ ^^^^^ aux principes acceptes par les linguistes, ayant 6te en grande 

partie « bricoies » par accumulation d'heuristiques. II en resulte que leur fiabilite est douteuse 
et que leur architecture est difficile ft rectifier. Les programmes informatiques qui les mettenJ 
en oeuvre etant complexes et ecrits dans des langages evolues mais non-performants, les temps 
I'P^^ traitement de grandes masses lourd et leur coOt parfois 

Sic?* ? ^"Jpison de raspect normatif des regies constituant le savoir-faire des parseurs, la 
description produite ne convient qu'aux expressions bien formees. Quant ft la description 
structurelle produite, les regies de son interpretation demeurent ft prouuire. 

Par ailleurs, comme les « travailleurs du texte » sont absents des equipes nui eiaborent les 
parseurs les preoccupations des linguistes priment. Ceux-ci ont tendance ft entretenir un rapport 
ret lexif ft 1 outil et ft considerer le parseur comme un banc d'essai pour valider des hypotheses 
theoriques sur quelques phrases choisies. L'exhaustivite et la complexite sont les caracteristiques 
recherchees alors que la compietude et la couverture importent peu. 

Les contributions ft la theorie du parsage etant trop nombreuses et pointues pour etre 
exposees ici dans le detail, seules les tendances generates sont evoquees. A I'instar des systemes 
experts qui sei^rent le savoir exprimc sous forme de regies d'inference du moteur qui les invoque 
le savoir linguistique est de plus en plus tenu ft part du m6canisme informatique qui le met en 
oeuvre. II est exprime de fafon modulaire et lisible de telle sorte qu'il puisse ais6ment etre relu 
et revise. Dans la fouiee du courant de Tinformatique de I'usager final, des progiciels simples et 
conviyiaux pour la generation d'analyseurs ont ete developpes afin que les linguistes puissent, ft 
la suite d un l^ger entralnement, participer directement ft I'eiaboration de parseurs. 

J? derniere analyse, il nous semble que les parseurs, tributaires de la linguistique 
computationnelle, pour les besoms de Panalyse des donn6es textuelles, font trop et trop peu ft la 
L« «'veau de complexite et d'exhaustivite de la description syntaxique vise, mais 
difficilement atteignable dans un avenir previsible, n'est pas necessaire. En effet, Tanalyse 
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cherche des indices en termes de r^gularites ou de ruptures textuelles, etle indique des tendances 
et caract^rise des ensembles d'6nonc^s pris globalement. Ainsi Ics parseurs conviennent & r^tude 
raffin6e de T^nonciation, mais negligent les macro-structures textucllea qui d6notent Tanatomie 
du texte^ la strat^gie discursive qui y est mise en oeuvre. 



Pour une lecture experte assist^e par ordinateur 

Face k Tampleur des probldmes ^nonc^s plus haut, nous esquissons quelques pistes qui nous 
semblent en mesure d'arrimer la production d'outil aux besoins des a travailleurs du texte Sur 
le plan th^orique, le module linguistique qui s'avdre trop centra sur la langue devrait 6tre assujetti 
k un module textuel qui reste k formaliser. Les propositions pour une morphologie discursive (A. 
Lecomte et J.-M. Marandin), d^veloppies dans le cadre de travaux en analyse du discours, nous 
semblent constituer un point de depart prometteur. 

L'analyse morphologique du discours repose en grande partie sur Thypothfese selon laquelle 
les inonc^s d'un discours se pr^sentent comme des formes d'objets^noyaux aux configurations 
r^gulidres. Analyser la morphologie d'un discours revient & construire un module g^n^ral du texte 
en repertoriant k travers les strates du discours la manifestation des objets de sch^matisation et, 
au-del& des limites strictes de la phrase, en reconstituant les itin^raires s^mantiques que ces objets 
empruntent. Les sch^matisation sont des operations qui structurent des objets cognitifs et les 
articulent dans Tespace d'un savoir (r^f^renciation). Ces operations sont toujours tributaires de 
circonstances sp^cifiques, soit la pratique sociale qui en determine les conditions de possibility. 

En plus du syst^me de relations de dependance contextuelle, les objets de sch^matisation 
sont inscrits dans un syst^me de relations de transformation d*objets, de relations m^ta- 
fonctionnellcs (rintroduction d'un texte, d*un auteur, etc. Les objets d'une sch6matisation sont 
r^currents, ^tant constamment repris et reformul^ par les interlocuteurs tout au long du processus 
discursif. Le proceisus par lequel les unites s^mantico-cognitives faisant reference au riel sont 
stabilis£e:» k TintirJeur de formes linguistiques pour constituer des sch6matisations, est appel6 
ancrage. Les ancrages nominaux mat^rialisent les objets en ddcrivant leurs propridt . Les 
ancrages verbaux fournissent les elements de la dynamique des objets: leurs relations. 

Ce type c'^analyse du discours exploite la particularity du langage naturel d'etre k iui- 
mame son propre m6talangage, c*est-a-dire qu*il sert k la fois k repr^senter la reality et k 
repr^senter la representation de la reality. Ceci justif ie une lecture par extraction et ychantillon- 
nage de segments de texte (en termes techniques on parle de « thematisation par specification >^), 
tenus pour representation canonique des enjeux importants du discours. Ces ^gments, articuies 
les uns aux autres, forment un nouveau texte se donnant comme resultat de Tacte d'interpretation. 
Une grammaire discursive du tc-xt*^ analyse est en quelque sorte mise au point progressivement, 

L'automatisation de la lecture des textes nous apparait etre un objectif impossible k 
atteindre dans un avenir previsible. C'est pourquoi nous proposons de remplacer cet objectif 
m6caniste pour fournir une assistance au lecteur expert afin d*accroltre Tefficience du processus 
en termes de consistance et de rapidite. Qui plus est, une description exhaustive mais statique des 
textes generes de fa^on deterministe, mdme si elle etait sans faille, ne serait que partiellement utile 
pour realiser Tanalyse de grandes surfaces textuelles. Dans une telle perspective, Tinvestigation 
des regularites et des ruptures textuelles se fait par accumulation d'indices de plusieurs natures, 
telle Tagglomeration d'items lexicaux en certains points strategiques du texte, les procedes 
stylistiques, etc. 

Une approche interactive k Tanalyse de textes ou la dimension heuristique prime nous 
semble preferable. L*analyse prend alors la forme d^une demarche cyclique composee d'autant de 
boucles extraction / validation que jugees necessaires; les resultats obtenus guidant la suite des 
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operations. U gouverne (contrdle) des operations est done laiss^e a Texpert lecteur. En somme, 
ft la moulinette requ^rant une confiance aveugle, nous pr6f6rons la calculette oH les manipulations 
repetess, hbres et varices augmentent la creativity de Putilisateur. 

Pour correspondre aux caracteristiques cxpos^es precedemment, Tarchitecture informatique 
souhaitable prend la forme d'un atelier « textuel » oxi dans un univers integre coexistent un 
analyseur lexicographique et des sous-parties de parseurs, notamment pour decri'e les sequences 
nominales et rattacher celles-ci aux sequences verbales (voir fig. 2). Au lieu d'une description 
arborescente de chacune des phrases qui s'avfere lourde et difficile a valoriser, les resultats que 
nous yisons prennent la forme de topographies: des inventaires, des classifications ou encore des 
partitions du texte selon dw criteres internes. Nous introduisons le terme topographic car la 
categorie d'espace nous apparatt importante pour decrire les relations qu'entretiennent les objets 
de schematisation. 



FIGURE 2: 
Assistance k ia lecture experte 
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En attendant que les parseurs pouvant 6tre appliques ft n^importe quel texte en produisant 
des descriptions linguistiquement fiables soient disponibles, nous preconisons une solution mixte 
qui consiste ft faire des analyses lexicographiques qui tiennent minimalement compte de ia 
distribution positionnelle des mots dans les phrases. Nous expdrimentons pr^sentement TappHcation 
informatique des principes de la morphologie textuelle par Textension du calcul de co-occurrencr 
basd sur une categorisation morphologique. Ceci nous i^rmet d*ores et d^jft d'assister le d^pistage 
et le blocage des locutions, c*est*-ft-dire les unites s^mantiques* appeldes termes, compos^es de 
plusieurs mots qui, pris s6par^ment, ont chacun une signification (par ex.: traitement de texte). 
Cette operation apporte une rigueur accrue ft Tanalyse des constituants. 

En conclusion, il nous apparalt essentiel de ne m plier la mithode d*analyse des textes 
pr6-existante aux imp^ratifs techniques de Tordinateur, de refuser que leur langage d^exploitation 
parasite la mithodologie. De mdme, la discussion sur la primautd d^un type d^outil sur Tautre doit 
gtre modifiSe en faveur de Tenrichissement mutuel de leur apport. La port^e de leur intervention 
doit dtre calibr^e en fonction de la m^thodologie. 
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Sans vouloir accorder une importance d^mesur^e aux questions de forme, il n'est pas 
d6pourvu d*int£ret de relever que la disignation merae de I'objet dom nous aUons nous entretenir 
au cours de ce colloque, ft savoir le traitement de la langue naturelle en vue d'applications 
industrielles, est sujet h des appellations diverser: linguistique informaticue, informatique 
linguistique, langue et informatique, industries de la langue. Si les trois premieres appellations 
se contentent d'embotter, de fa^on plus ou moins precise et claire, les theories, les procedures et 
les hypotheses de traitement automatique des composantes de la langue, il en va autrement de la 
quatri^me. 

EHe est, tout le monde le sait, d'usage recent. Juin 1983, c'6tait hier ou presque. Au 
cours du colloque COFORMA, nous avions risque, eu 6gard aux premiers produits apparus sur le 
march^ et aux besoins dont on commenjait k percevoir la nature et T^tendue, la denomination 
d'industries de la langue. Elle 6tait commode. Elle laissait le champ libre ft toules les innovations 
et & toutes les Evolutions de ce terrain ft peine rcconnu. Mais elle 6tait elliptique et cavalidre. 
Elle posait comme acquis que la langue avait g6ner6 une industrie, comme le cuir ou la locomotion 
automobile Tavaient fait ft des 6poques ant^rieures. On jxjuvait cependant trouver ft Texpression 
une double justification. Le tcrme de langue signale que celle-ci, en tant que mat^riau et 
v6hicule, est entree dans un processus de transformation destin6 ft Tintroduire dans des systfemes 
complexes d'information et dans des outils evolu6s, appel6s ft remodeler de fa^on importante et 
durable, Torganisation de secteurs d'activit6 aussi vitaux pour une scci6t6 que la bureautique, la 
domotique, la productique, la conception et la fabrication assist^es par v^rdinateur, Tarchivage et 
la documentation, les Editions imprim^es et audiovisuelles, Tdectronit^ue, la m^decine et la 
r66duction des nandicaps moteurs, la traduction, etc. 

Le terme d'industrie souligne que les services et le produit ainsi con^us donnent lieu ft 
I'exercice d*activii6s conjointes et standardisees, telles que la transformation de mat^riaux, la 
conception, TElaboration et la confection des syst^mes ou de dispositifs d'assistance nouveaux. Les 
industries de la langue concernent done les techniques, produits, activit6s et services qui s'appuient 
sur un traitement de la langue naturelle. 

Les explications ne sont survenues, comme 11 se doit, qu'une fois le terme et le concept 
lanc6s. lis 6taient, on le distingue encore plus nettemment maintenant, pr^maturis. Car il a fallu, 
entre decembre 1986 et juillet 1987, s'eloigner des balbutiements, des survols cavaliers et erron^s 
et des Evaluations fantaisistes. De fa?on analogue aux symbolistes qui voulaient reprendre ft la 
musique "leur bien", il a fallu scruter les projets et les produits industriels fran^ais ou Strangers, 
impliquant de prEs ou de loin un traitement de la langue naturelle, les programmes de la 
CommunautE Economique europEenne (Esprit I et II, Eureka notamment), pour y rechercher la 
presence Eventuelle des composants "industries de la langue", en dEciire la nature, les fonctions, 
les utilisations, etc. De m6me, il a fallu tenter de decrie, ft un moment donn6, TEtat de Toff re 
et I'Etat prEvisionnel de la demande, les marches confinnEs et ceux projetEs par les instituts de 
consultants internationaux. 

Aujourd'hui, Texpression parait plus communEmeni admise. Le pEriodique Language 
Technology s'est explicitement donne comme sous-titre "Magazine des industries de la langue", le 
colloque de I'lNRIA en dEcembre 1987, a choisi, pour designer I'objet de son travail, le vocable 



ERIC 



37 



. Andrd Abbou 



?i^n1rr^t1J*D[^.Cmi^ couramment. pour annoncer ses 

co^^rte P^<>8rammes. d industries de la langue. L'expression seir.ble done d^sormais 

rAn., «?"! avoir 6t« la bonne car nous avons pu ainsi mettre en olace 1« 

reflexions et les actions de Roseau francophone des industries de la langue 

1. LE RfeSEAU FRANCOPHONE DES INDUSTRIES DE LA LANGUE 
• PREMIER EXERCICE 1987 (Suivi du Sommet Je Paris) 

d^tt^f i^?^ ^ '^^^^ vicissitudes. Le premier Sommet des Chefs 

Juy%f!frr^T.'^%'''': ^r^unr usage de la langSe fran,aisrqui s^st'^tenu 

.li- M ®^ * ^"^^ '® ^^«au des industries de la langue. avait suivi le* 

aopportmiti, de fmsabiUti et de mise en marchi n'avait 6te ni entreprise ni enviwg^e. 




II n'empftche que quatre reunions purent so tenir avant iuiliet 1QR7 mi*nn « ^ak«»»:* 
rS1m^^';rr\^l^^^^^^ d'interv'emion . priviirg'^ ^dttu^dis' d^^ Kbi^it'/^our 3 
'i^"® ^ ^opportmiU, de faisabiliti et de mise en marchi furent 

JvJ?^ w J"^"en mars 1988 (s^minaire international de TAO r6uni & Paris S^minaire 
francophone sur les qwestions de formation en industries de la langue) Fi? uin 19gT 

rbX?'A??n- ^"'"^^ « avalisi pTfes instJS^s pr?pamoV/ 

le budget d'operatjons estimd ft 15 MMF et les dossiers ft souroettre aux Chefs d'lta? e d; 
gouvernement en cours de constitution. >"Mmciuc aux ^.neis a Jr.tat et de 



versement 



em ^t^l t r?„lf*^ "^l"^ Propositions et enregistra les promesses de 

MFT II ? foods multilateral mdustries de la langue. La France, qui avait promL 7 5 

■ DEUXlkME EXERCICE (Suivi du Sommet de Quebec) 

i« iano./i /'^^"^ Quemada, directeu- de I'lNALF (Institut national de 

t Ia^S 1 T:?^^ responsable de Roseau, dont le redacteur de ces lignes, ft qui avairechu 

rajfoint * permanent du Reseau et de responsable-adjoint du Refeau en^I987 devin" 
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Ces deux animateurs tentdrent dans un premier temps d'obtenir des crMits complimentai- 
res, notamment d^ pays industrialist ayant peu ou pas du tout vers« de contribution. La notion 
des lignes budgitaires disponibles ("aide au d^veloppement" par exemple) se r6v«la un obstacle 
insurmontable. 

Le Rteeau tint cependant trois reunions en 1988 (Bruxelles en mars, Montreal en juin, 
Rabat en novembre), organise son travail, incita ft la mise en place des Observatoires des industries 
de la langue dans les pays ou regions concern^s. Les observatoires charges de recenser, trier, et 
interpr6ter toutes les informations, d'informer et de conseiller le*? comit^s d*experts nationaux, 
constituent et constitueront de plus en plus la coionne vertibmle v<e toute politique nationale et 
internationale au plan des industries de la langue. La preuve en est que la CEE, quand elle a 
envisage de lancer un programme "industries de la langue' en 1990, a lanc^ un appel d'offres 
destine ft constituer, sous son patronage, un observatoire europien des industries de la langue. 
Ainsi, s'est mis en place en France, et officiellement, TObservatoire fran^ais des industries de la 
langue d*« le 4 Janvier 1988. Ainsi se sont constitute ou sont en cours de constitution des 
observatoires qu6b6cois, canadien, beige, Suisse et africain. 

Avec des moyens rfeduits, Le Roseau - apr*s appcls d'offre et presentation par les Comitte 
nationaux - a agra^ 20 ft 25 projets, auxquels il a accord^ des dotations - r^cup^rables sous forme 
de fourniture d'un nombre variable d'esemplairc^ des produits agr^te et finances ft hauteur 
maximale de 40% - dans des domaines varies, en rapport avec les trois axes d'action retenus. 



A> Recherche-d^veloppement Industrlel 

domaines int^ress^s: 

■ TAO (bilan de I'offre et analyse des syst^mes) 
• EAO 

B Communication parl6e (bases de donn6es des sons du fran9ais avec vari6t6s socio- 
g^ographiques) 

B Bureautique (d^tecteur contexluel de flutes d'orthographes - pour traitement de texte) 

■ Aide ft Tanalyse et ft rinterprfitation des testes (systfemes de d^pouillement terminologi- 
que par ordinateur et dispositif informatis^ de sondage des flux d^information) 

■ Analyse et Evaluation de I'offre en outils ei services d*riv6s du traitement de la langue 
naturelle (R6;^rtoire des outils et services) 

■ Creation d'un r6seau des observatoires nationaux des industries de la langue 
(concertation, outils et procedures de travail) 



B) N. ologie - termiDoIogle 

Inventaire actualisable des travaux terminologiques, productions terminologiques et 
neologiques, concertation et action du Roseau international de n^oiogie-terminologie. 



C) Formation - perfectioanement 

Inventaire de? centres de formation et d s programmes disponibles^ selection des 
programrois et des cenires, appel ft candidature, selection et affectation des Etudiants en cours de 
spec alisation, dotation en bourses et en frais de formation. 
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Norn n'«vo«uons que pour m*moirc !a prtparation du programme 1989 du Roseau la 
prtparauon dea pioposmons des programmes et des budsets & souraettre au Troisidme Sommet 
(LiftKar, mai 1989). 

VoiU un bilan pr*cis de Paction du Roseau au plan francophone. 



2. PROBL&MES EN SUSPENS E . QUESTIONS POSHES 

.x®,^!^^' * conduire est immense, on le per^oit. Mais les politiques nationales et 
multilatdrales des pays francophones butent sur des difficultis administratives et financidres. 



a) dlfflciilt«s ftdniBlstrativesi 

tA' ' „^ de la langue sont un domaine qui traascende des d^coupages th*oriques 

(disciplines) et tes spheres d*action des minist6res en cause. La Recherche et la technologic. 
I Industries, le Commerce inl^rieur et ext6rieur, la Francophonie, la politique de la langue 
(maintier un potentiel technologique important permettant de conserver I'usage du francais 
commf d mforraation et de traitement de I'informaUon), I'Education et la Formation 

professio^iieUe. Ces ministAres n'ont pas tous les mdmes optiques. II est parfois difficile aux 
services de ces mimstires de comprendre que toute poliUque qui vise, & court terme, ft privil^gier 
le business sur la constitution de potentieb scienUfiques et technologiques, va ft I'fcchec Les 
crreurs r«p*t«es en matiirc de niiire ilectronique et de filidre informatique au plan francais le 
prouvent. L'6chec de raOMSON et de MATRA en micro- informatique est encore dans toutes les 
m6moires. L impulsion pour briser ces autarcies ne pcut venir que des programmes internationaux 
(communaut« europ^nne, communaut6 francophone). 

Au plan francophone, dans la mesure oil le Roseau et les Obscrvatoires recoupent produits, 
utilisations, technologies, effets culturels, sociaux et professionnels, ils assurent une veille 
technologique et linguistique. 80 H 85% des produits et services con9us au plan europ^en 
concement principalement ou ne concernent que la langue anglaise. 



b) dlfflcult^s fiBABClires 

Les budgets d'intervention sont faibles. Les degr^s d'information et les pr^upations 
diyergentes ne permettent f>as ft une volont* politique de s'exprimer clairement. Tout le monde 
salt que industries de \a langue int^ressent Tavenir et Texistence dc la communaut* ayant en 
conimun Usage du franfais. A croire, ou laisser croire, que cette communaut6 n'a que des 
probiemes d auto-suffisance - XtH importants d'ailleurs - et ft ne mobiliser que des budgets en 
relation avec 1 aide au d^veloppement, c'est se tromper de perspective, d'objectif et de vocation 
de la communaut6 de ces pays. 

Fauto de credits d'intervention, fautc de volont6 politique clairement d*montr6e, faute de 
marches organises et viables, les industrieU courent au plus pressd. La survie ou le d^veloppemcnt 
de leurs activitds leur commandent de s'adapter et de suivre revolution des marcii^s, dc produire 
ce qui est vendable et exportable, done ce qui tourne le dos ft une recherche-d^veloppemeni et 
ft des investissements on6reux pour la creation d'une Industrie de la langue, francophone ou 
multilmgue. Si les mdustriels manquent d'esprit de risque et paraissent frileux en ce domaine 
c est que l environnement les y porte. 



40 



Bilan d'un an d'observaiion et d'action 



37 



CONCLUSION 

La crtetion et Torganisation d*une Industrie de la langue d usage francophone et 
multilingue paraissent encore sujettes ft caution. Tout d^pendra de la clairvoyance, de la lev6e des 
barri&res administratives et de la volenti politique qui s'exprimera. 

Pour ma part, il y a deux mots que je n'emploierai d^sormais qu'aprds mdre reflexion. 
Ce sent ceux d'enjeu et de d6fi. Ces mots, ballotds et galvaud6s, prennent Failure de tartes a la 
cr&me et vont & Tencontre des clarifications souhait6es. Les d^Hs sont ces actes de foi et de 
volont^ qu^on se donne ft soi-mdme, compte tenu d'une conscience aigfie des risques et des 
cons^uences d*uiie situation d6favorable. Les enjeux procddent de I'exhtence d'objectifs clairs, 
de projets non ambigus, et du souci constant de d^tecter derridre les situations impos6es et les 
comiK)rtements conditionn^, les effets et les perspectives de leurs cons^uences. 



Mais ft la base, il faut une conscience claire et de ce que Ton est, et de cc que Ton veut, 
et de ce quMl est encore possible d^entreprendre. Apr^ viennent les questions de coherence et de 
moyens d'action. 

"Celui qui regarde longtemps ses rftves finit par ressembler ft son ombre" rapportait 
MALRAUX, citant un proverbe asiatique. II serait regrettable que la comrounaut^ des pays ayant 
en commun Tusage de la langue fran^aise, et par voie de consequence la langue fran^aise elle- 
mSme, se perdent dans les volutes du songe. 
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1. INTRODUCTION 



L'un des aspects r^cents et peu explores de la lexicographie franjaise contemporaine 
concerne les rapports que les dictionnaires g^n^raux monolingues (IX5M) entretiennent avec les 
avb officiels de recommandation et de normalisation issus des travaux des commissions 
minist6rielles de terminologie franjaises et qu6b<5Coises. De prime abord, les avis sont destines k 
des groupes de sp^cialistes appel^s & manipuler des vocabulaires sp^cifiques au cours de leurs 
activjtes professionnelles. Dds le moment ou les lexicographes g^n^ralistes les prennent er charge, 
le public destinataire des DGM les consulte; d tout le moins, il les a sous les yeux lorsqu^il ouvre 
un dictionnaire. 



Trois concepts doivent fetre circonscrits pour saisir pleinement le cheminement des unites 
lexicales cautionn^es qui, au sortir des officines d*6tat, sont r6cuper6es ou non par les 
dictionnaires de langue. 11 s*agit des concepts de ^politique linguistique*, d*^amenagement 
linguistique» et d'«avis officiels. 



Une politirue linguistique est une decision d^ordre iegislatif qui concretise Tinterfit de Vttzt 
pour le domaine de la langue. Cet interet est largement r6pandu dans le monde contemporain. 
Une etude recente montre que plus de la moitie des £tats souverains du monde sont intervenus 
dans le champ langagier et plus particulierement dans le secteur de Taffichage (voir Leclerc 1988). 
L'amenagement linguistique est un processus d*intervention etatique volontaire en vue de planifier 
et de modeler le changement linguistique dans une societe. L'un des objectifs de Tamenagement 
est de fafonner la langue elle-meme, soit en la decrsvant, soit en Tenrichissant du point de vue 
lexical. Les manifestations de la standardisation et de la description de la langue trouvent leur 
accomplissement dans le dictionnaire et la grammaire. L*intervention dans les langues de speciality 
its?) est dite aminagement terminologique. Enfin Tavis officiel est un document de nature 
institutionnelle, emanant d'une autorite mandatee pour intervenir dans la langue^ et i^rtant d la 
connaissance du public et des usagers les decisions prises a regard d'un terme, d*un groupe de 
termes, d'un plus vaste ensemble d'unites, un dictionnaire terminologique par exemple, etc. 
Avant d^etre relayes par divers canaux mediatiques et de parvenir au catalogue des mots du 
dictionnaire, les avis des commissions ministerielles fran^Pi^es ou quebecoises sont d*abard publies 
dans les organes parlementaires de chaque £tat (Journct officiel en France et Gazette officielle 
du Quebec). Outre Tensemble des decisions, le terme «vL officiel designe chacune des unites qui 
est Tobjet d*une sanction de normalisation ou de recommandation. 



L'activite etatique et gouvernementale deployee autour de ces trois differents axes 
interventionnistes a des repercussions de plus en plus visibles et tangibles dans les DGM. Depuis 
une quinzaine d'annees, en effete les repertoires lexicaux prennent une importance accrue en tant 
qiie courroie de transmission des decisions ministerielles d caractere technolectal* De fait. Tune 
des missions du dictionnaire consiste 6 banaliser Tusage des termes enterines par des autorites. 
Avec comme consequence, que dictionnaire peut contribuer k installer ou ft maintenir dans 
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1 usage des formes 6lues par le groupc socioprofessionnel responsable de rintervention (ex losiciel 
'n^Jriel. Itstage didaeticiel sortani). Ceci ne signifie nullement que des formes iug6es comme 
4tant r^pr^hensiblM ou ft remplacer n*ont plus de vigueur ou d'adeptes dans certaines circonstances 
51L?f?i«;/ J*' <l»fcou" Jexicographique lui-m€me. Voir par exemple la definition de 
tfOTin^f (Annexe 6.1) dans le GRLF qui mamtient la forme digitale alors qu'ft Tarticle digital du 
mCme dictionnwre il est dit: «Rcm. On recommande officiellement I'adj. num^rique pour 
remplacer cet anglicisme, qui crie en franfais des confusions avec I. digital [...].» 

Le dictionnaire a depuis belle lurettc la responsabilit6 de v6hiculer le bon usage et une 
ccrtoine vL^ion de la norme. Depuis I'origine c'e la lexicographie francaisc. les r6dacteurs de 
dictionnaires sont sans cesse ft T^coute de ceux qui font la langue. qu'il s'agisse de personnes, de 
groupcs ou d institutions. Cela fait partie de la nature du dictionnaire. de sa vocation de son 
aspect captif. Quant aux commissions minist^rielles de terminologie. elles constituent des 
academies modernes dont les travaux m6ritent un coup d'oeil circonstancie afin de faire le point 
sur leur impact dans le public g6n6ral. 

La normalisation organis6e. institutionnalis^e, planifi^e remonte ft in peu plus d*une 
qumzaine d anndes. La mi:e en activity des m^canismes frangais et qu6b6cois dMnterventions 
minist6rielles date respectivement de 1972 pour la France et de 1978 pour le Quebec Les 
premiers d6crets de normalisation figurent au Journal o/ficiel fran^ais du 18 janvier 1973 "tandis 
S!!^/I2 te 26^^7979 ^ VOrnce de la langue fran9aise sont diffuses par la Gazette officietle du 

A partir de 1975, les officialismes sont introduits dans les dictionnaires de langue I>epuis 
leur nombre augmente r6guli6rement. L*exemple des repertoires pionniers {Lexis et Petit Robert) 
gagne mamtenant toutes les entreprises lexicographiques et toutes les categories de dictionnaires 
de langue: les dictionnaires pour les enfants {Dictionnaire CEC jeunesse), les dictionnaires pour 
les coliegiens {Mwro-Robert) et les grands dictionnaires {GRLF). Les formes lexicales estampill6es 
sanctionnees viennent manifestement perturber la macrostructure et plus visiblement encore la 
microstructure des DGM. Elles offrent aux lexicographes un nouveau reservoir dans lequel ils 
peuvent puiser des entrees nouvelles tout comme elles requierent un traitement adequat dans 
1 article, au mSme titre que I'etymologie, le reseau analogique, les citations, quand il y a lieu 



2. LES DISCOURS DICTIONNAIRIQUES 

Les attitudes des lexicographes en' srs les avis officiels se repercutent dans deux genres de 
discours dans les dictionnaires: le discours preiexicographique et le discours lexicographique. 

2.1 Le discours preiexicographique ou commercial est celui qui se trouve en ouverture des 
dictionnaires. II s*agit des prefaces, introductions, presentations, etc. En principe, c'est le lieu 
2?-/® lexicographe definit ou explique la position de son equipe de redaction ft regard des 
differents types de mots qu*il traite (regionalismes, neologismes. emprunts, notamment les 
anglicismes, avis officiels, etc.) et les critdres de choix qui president ft la selection. Un examen 
attentif de ces discours dans sept dictionnaires courants. tous parus depuis la fin des annees 70 
dessine un portrait assez juste de la situation. Des sept ouvrages suivants: GRLF. PR. LEXIS, 
rU89, DHLF, DFH et DFP, seuls les quatre premiers se prononcent sur les termes recommandes. 
Jillustre par les textes du PLI89 et du PR (1986) I'opinion de deux equipes de lexicographes 
I raixcais k 
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Dans PLI89, il est stipul*: ^Les recommandations de rAcad^mie fran^aise ont €tt 
mentionnSes chaque fois que T^ta: d*avancement des travaux du Dictionnaire nous Ta permis. [...] 
Les recommandations officielles en mati^re de terminologie ont €t€ mentionntes chaque fois 
qu'elles cxistaient)> (p. 6). Cette derniire remarque peut s*interpr6ter de deux maniferes: les termes 
r^ommandds ont tous leur place dans la nomenclature tout en ^tant affubl^s de la marque 
d^officialisation; les termes recommand^s ont leur place dans la nomenclature avec ou sans indice 
d*officiali$ation. Dans les faits» aucune des explications ne pr^vaut, car sur 36 termes du corpus, 
31 seulement sont retenus dont 5 sont marques (voir le tableau 1). 



Dans le PR, il est precis que: ^Le Petit Robert signale les ^recommandations officielles^ 
fran^aises (recomm, offic), soit sous Temprunt, soit, lorsqu'elles semblent effectivement en usage, 
ik Tordre alphab^tique. Bulldozer ma)gr6 Texistence d*un rempla^ant officiel tmUeur, deraeure dans 
rusage; matiriel et logiciel concurrencent heureusement hardware et software^ que la description 
ne peut, par ailleurs, n^gliger, Les termes approuvds par arr€t*s minister leLs — ft partir des arrdt^ 
du 12 janvier 1973 ~ ont €tt mentionn^ dans le dictionnaire dans la mesure od ils rempla^aient 
un anglici^me figurant & la nomenclature, et quand leur emploi 6tait effectif^ ou probable dans 
les anntes ft venir. La publication exhaustive et comment^ des termes officiellement approuv^s 
reldverait d*une autre perspective, ouvertement normative, que nous n'avons jamais adopt^e» (1986, 
p. XVIIKXIX). 



Quant au seul dictionnaire qu6b6ccis qui aurait pu se prononcer sur le sujet, le DFP, il 
demeure muet. Sur un total de 21 pages imprim^es formant quatre textes diff*rents, il n'est nulle 
part question des decisions officielles de TOffice de la langue fran^aise, ni de ses trois 6nonc6s 
de politique linguistique portant respectivement sur Temprunt de formes linguistiques ^trangdres, 
sur les qu6b^cismes et sur les titres et fonctions au f6minin, Pourtant, ft Tint^rieur des articles 
du DFP, il est fr6quemment q :estion des avis linguistiques et terminologiques de TOLF (ex. 1: 
credit, sens 7: «Unite de valeur dans Tenseignement universitaire et coll6gial. [...] REM.: L'OLF 
rccommande d'employer plutflt unit^; ex. 2: acadimiqm^ sens 3: Annie acadimique. temps qui 
s'ecoule entre le ddbut et la fin des classes, des cours. REM. L*OLF recommande de remplacer 
ce terme par annie scolaire ou artnie universitaire^ selon le cas). {Pour un examcn plus pouss6 
des discours introductifs, on se reportera ft Boulanger 1988c.l 



2.2 Le discours lexicographique n'a pas la souplesse du discours d'introduction. II est plus 
rigide, plus cod6 puisqu'il constitue une armature sur laquelle se greffe Tinformation ft transmettre. 
La grille de synthase s'est developp6e et fixee au fil des si^cles permettant une presentation des 
donates suivant un ordonnancement bien precis des rubriques. L'ajout d*une information nouvelle, 
comma celle qui concerne Ics recommandations ministerielles, peut done perturber la physionomie 
seculaire de Particle. 



II est utile de s'arrSter sur quelques brefs constats pour illustrer ce ph6nom^ne. lis 
precedent du plus general au plus particulier, sans 6tre exhaustifs. 



Tous !es dicticnnaires d^* fangue r^cents incorporent un nombre plus ou moins €levi 
d'avis ou ils marquenr du sceau d'ofncialisation des unites dejft trait^es dans les 
articles. 



2. Aucun repertoire ne catalogue ou n*identifie Tensemble des unites scrutSes par les 
commissions de terminologie, peu importe Tarr^te en cause. 
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3. Un discours cod6, c'est-a-dire une terminologit; particuUere s'est cre^e pour rendre 
lexicographiquement compte de rinterventionnisme ^tatique dans les lexiques 
sp^ialis6s. A titre d'exemple, voici une s6rie de verbcs reiev6s dans les articles 
de quelques dictionnaires: recommander. remplacer, priconiser, conseiller, proposer. 
Ces tenses prennent une coloration s^mantique ax^e sur la terminologie 
lexicographique d6ja disponible, comme c'est le cas des unites normaliser, franciser, 
traduire, ^galement rep^r^es dans les microstructures. Cette terminologie est 
produite par les lexicographes afin de pouvoir discourir sur le ph6nom6ne 
d*officiaIisation des termes. La plupart du temps, elle renvoie explicitement i 
rautorit6 normative tout en d^gageant le r6dacteur de la responsabilit6 de 
rintervention. 

4. Le discours refl6tant Tofficialisation d'une unite lexicale niche k peu prfes dans 
n*importe quelle rubrique microstructurale. Contrairement aux autres rubriques au 
contenu et d ia place fix6e I'avance dans chaque article, Tindicstif de 
Tofficialisation d'un terme apparalt au petit bonheur pour le moment. Aucun 
dictionnaire n'a 6tabli ou propose de politique cohdrente 4 ce sujet. De fait, la 
notation des officialismes introduit une nouvelle marque prescriptive dans la 
tradition lexicographique fran^aise. M6me s'il n'est pas r6cursif dans chaque article, 
pour des raisons ^videntes, Tindice en question est n6anmoins trfes present et il joue 
un rdle suffisamment determinant pour qu^on songe k !ui attribuer une 
denomination qui le personnalise et qui confirme sa place et son utilite au sein du 
vocabulaire lexicographique. Sur le module des autres denominations, je sugg^re 
d'appeler officialisaiion ou label ce nouvel element du discours lexicographique 
code. La rubrique ou la marque d'officialisation ou de label rejoint ainsi des 
congeneres comme la datation, la definition, la citation. 



3. LE TRAITEMENT MICROSTRUCTURAL 



Rien ne distinguant reellement les officialismes retenus en entree des autres formes- 
yedettes, c'est le contenu de Tarticle qu'i! convient de scruter pour recueiilir les indications 
idoines. Afin d'illustrer le procerus, j'ai constitue un minicorpus de termes extraits de YArrdic 
du 22 dicembre 1981 relatif d Venrichissement du vocabulaire de I'informatique (voir DNO, 1984, 
p. 401-406). Cet arrfite repertorie 54 entrees: 34 formes simples (dont 1 est accompagnee d'une 
variante {visu ou visuel) et 1 autre d'un synonyme {lirage ou fuc-sim)), I entree k trois volets 
morphologiques tri-, multiprocesseur) et 19 syntagmes terminologiques. J'ai choisi d'examiner 
les 36 termes simples qui demeurent aprfes I'addir >n des co-entr6es et I'elimination de la forme 
gigogne. Le tableau qui suit (tableau 1) montre distribution et le traitement des termes dans 
trois dictionnaires publies par des editeurs differents: le GRLF, le DFP et le PU89. Le terme a 
ete marque d'un [+] lorsque la forme et le sens de I'entree renvoyaient a I'informatique; le signe 
(-) indique done que le dictionnaire ne consigne pas le sens informatique de I'entree. 

Des 36 termes examines, le GRLF en retient 33, le PLI 31 et le DFP 25, ce qui illustre 
bien Timportance du vocabulaire de I'informatique dans les DGM. Cette terminologie se banalise 
<te plus en plus; elle rejoint I'ensemble des usagers, ce que les dictionnaires ne peuvent ignorer 
(voir Boulanger, 1988b). Parmi les unites traitees, 23 sont reconnues par les trois dictionnaires. 
Seul le terme fac-sim est laisse de cdte par I'ensemble des repertoires. Parmi les 36 entrees, le 
GRLF en officialise 12, dont 2 indirectement puisqu'il signale I'equivalent anglais sans faire 
allusion & la recommandation franfaise ou & la solution de remplacement comme dans les autres 
cas (voir Annexe 6.2). Pour le lecieur non averti, il est quasi impossible de dechiffrer le message 
derriere la reference cach6e. Le PLf marque 4 termes tandis que le DFP en etiquette 3. Logiciel. 
materiel et numirique sont les seuls 4 faire I'unanimite du point de vue du label. 
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Statut des avis 
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GRLF 


OFP 


PLI 


Termes 


£nt 


Officia- 
lisatloa 


Locali- 
sation 


Entree 


* * w All— 

li&ation 
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W& » Av JLB* 

lisation 


Loca 1 i~ 
sat ion 


autonOQse 


♦ 




RA-AI 


- 








0 




bureautlque 


♦ 


- 




♦ 


- 






- 




compatibility 




- 




- 


0 




- 


0 




disquette 




- 




♦ 








- 




donn^e 


♦ 


- 


RA-AI 




- 






- 




fac-siTH 


- 






- 


0 




- 


0 




increment 


♦ 


- 










4- 






Infographie 
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- 






0 




4 






Infonsation 


- 


0 




4 


- 




4 


- 




iDformatique 




- 




4 


- 




4 


- 
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- 
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0 




4 






interface 
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4 






4 
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rn 














1 Ister 








4 






4 






A UglC IC I 


♦ 




RI 


4 


4- 


RI 


4 


4 


RI 


mill c 1 X" k 


♦ 


4 




4^ 




RI 


4 


4 


RI 










4 






4 






8)lcroprocess6ur 


♦ 












♦ 
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loation 








4 






4 






multitraltemefit 


4 


■4 


RI 




0 




4 






nuid^rique 


4 




CD 




4- 


RI 


4 


4 


RA 


photostyle 


4- 


4 


CD 




« 




4 






portability 


♦ 








• 










process^tir 


♦ 












4 








4 


















robot ique 


♦ 












4 
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DietloiiMlrM 




CBLF 




DFP 


PLI 




entree 


Offlcia- 
Ilsatlon 


Locali- 
sation 


Entree 


Officla- 
IlaatloD 


Locall^ 
sat Ion 


Entree 


Officia- 
llsatlon 


LocaU- 
aation 


ft«rvcur 


♦ 


♦ 


DR 


4 






4 


- 












4 


- 




4 


- 
























tll^natique 


4 






4 












t^litraitraent 








4 






4 






terminal 




- 




4 






4 






tlra&e 


♦ 


4 


CD 










0 




vlsu 




« 






0 




4- 






vlsuel 




4 


CD 


4 












visual Iser 


4 






4 






4 






3ti 


33 


12 

1 




2S 


3 




31 


4i 


i 



Lgaende: ♦ — > le UMJt po$&dde une entree et un sens inforMtique dans 
le dictionn.iire; Ic root est labellis^, 
♦ — > le mot ne poss^de pas de sens informal ique ; ie mot 

fi*est pas labellls^, 
9 — > ne applique pas 



Abr^viations: 



AI 

CD 

m 

DR 
RA 

RI 



— > 
— > 



allusion indlrecte 
coaroentaire dans la definition 
definition m^talinaui&tique 
— > definition r^ferencee 
rubrique analogique 
rubrlquc Ind^pendante 



> 



Les rubriques utilis6es pour v6hiculer ]e message officieJ sont la definition, I'ofricialisation 
et le r6seau analogique. Dans le minicorpus, on compte 19 indications de ce genre, repsrties 
comme suit (voir le tableau 2): 
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TABLEAU 2: 
Distribution des indications officlelles 



RUBRIQUE 




eX£^(PLE5 


DEFINITION 


- d*f. s^talioguistlque 111 

- d^f. r£f€renc^e \\\ 


LISTAGE (FU) 
SmVEUR iOIBLf) 
Ll.'TAGE. in^(£RIQUE, 
VISUEL, ((MILF) 


LABEL 


marqueurs 

• REN (3] 

• parentheses {4] 

• f 121 


INTERFACE^ LOGICIEL. 
MATWIEL (CmLF) 

LOCICIEL. MATgRIEL. 
NWERIQUE (DFP); 
MATtRIEL (PLI); 

LOGICIEI. (PLI); 
NATgRIEL (CRLF) 


ANALOGIE 


identification la 
fortse ^trang^re (3} 





Le corpus restreint n'a permis de rep^rer I'information officielle que dans les trois 
rubriques mentionn^es. D*autres recherches menses par ailleurs montrent que I'indicatif minist6riel 
p«ut apparaltre dans la parenthfese 6tymoIogique (ex. remue-mininges (GRLF), en entrfee- renvoi, 
dans I'exemple, etc. (voir Boulanger 1988c)). La definition et le label demeurent pour le moment 
les rubriques privil6gi6es. 

La repartition propos6e prouve que le traitement n'est pas syst6matique, tant s'en faut. Ea 
fait, des trois termes communs & tous les repertoires, deux ont le mfime traitement partout {logiciel 
et materiel ont une rubrique independante (RI)) et un a trois tmitements diff^rents {numirique. 
commentaire dans la definition (CD), rubr ^ue independante (RI) et renvoi analogique (RA)). 

J'ai examine aussi dans quelles mesures la definition officielle avait des chances de 
poursuivre sa carriere dans le dictionnaire de langue. EUes sont bien minces comme Tillustre les 
constatations suivantes faites ^ partir du GRLF (voir 1* Annexe 6.1 oix toutes les definitions des 
termes officialises sont donnies): 

■ La definition constitue une information metalinguistique (ex. li stage {PLI)). 

m La definition est modifi6e au point qu'elle se detache totalement de la source officielle 

(ex. autonome. visuel (GRLF)). 
m La definition est moderement retouchee de fa^on d. etre adaptee au public-cible du 

DGM (ex. interface, listage (GRLF); logiciel, {OFP)\ numirique (DFF)). 
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■ ^ jlff»n"ion est trts 16g*rement modifi6e; elle ne s'6carte pas beaucoup de r6nonc6 
ofnciel (ex. iogiciel, materiel {GRLF); logiciel {PLIX materiel (DFP)). 

■ La definition officielle est tronqu^e, c'est-d-dire qu'un segment est abondonnd (ex. 
tircge: la portion retrench^ (... prisenUe sur ime v/su] contient un terme hisu) non 
trait6 dans le dictionnaire (GRLF)). 

a La definition officielle est cit6e int6gralement et accompagn^e de sa r^f^rence 
ministenelle (ex. serveur (GRLF)). 

Le traitement microstructural des arr6t6s de terminologie en est encore k sa phase 
exploratoire. Seule r«cume de la surface a 6te remu6e. 11 faut encore se pencher sur les secrets 
des profondeurs. Notamment sur les critferes de selection des avis par les lexicographes La 
plupart des m6thodclogics de la recherche lexicographique 6tant ant^rieures & 1975, il n'est gu6re 
etonnant qu'elles ne fassent aucune allusion au sujet (voir Boulanger 1988a et 1988c). 

Une rapide analyse fournit quelques crit^res de surface: 

■ L'usage r6el et non pas artificiel du terme (ex. didacticiel/fac-sim). 

■ La concurrence avec I'emprunt (ex. de secours/back up). 

■ La nouveaute conceptuelle (ex. infographie/ographeur, virus, vaccin). 

■ Le degr* de technicite (ex. codet, tableur). 

■ La piovenance ou I'emploi g^ographique (ex. bogue (n.f.), spoule (n.m.)). 

■ La synonymie de nornmlisation (ex. visu/visuel, fac-sim/tirage). 
u Le statu quo lexicographique (ex. hit, disquette, information). 

Les critferes doivent fitre consid6r6s dans leur ensemble car il est rare que chacun 
fonctionne ind6pendamment d*un ou de plusieurs autres. Ainsi tutoriel qui correspond & un 
emprunt sous la forme du caique (anglais tutorial) et qui identifie un concept relativement recent 
et dont le degr6 de technicit6 est 61eve. 



4. CONCLUSION 

L'intervention 6tatique dans le domaine de la langue ram^ne a la memoire le concept de 
4(norme». Or les rapports entre la norme et le dictionnaire sont loin d'etre clairs et de faire 
I'unanimite (cf. Rey 1972 et 1983). Malgr6 leur voIont6 de se cantonner dans les limites de la 
description, de I'observation, les dictionnaires fran^ais d'aujourd'hui, comme ceux d'hier d'ailletirs, 
endossent volontairement ou non, la responsabilit6 d'une prescription partielle du lexique 
synchronique fran^ais. Les dictionnaires offrent k I'utilisateur un repertoire de mots choisis 
acceptes d'embiee et fixes, I'absence d'un mot est vue comme le signe d'une condamnation 
implicite par le lexicographe. 

Le dictionnairiste est per9u comme un mediateur entre la societe et les gens ordinaires. 
A travers son anonymat, il devient le garant de la norme et de la connaissance lexicale, ce qui 
»)ntralne que ce qu'il enterine en tant que responsable d'un dictionnaire est le fait linguistique 
decrit, ft rcxclusion des autres. Le DGM reglemente et regente tout a la fois puisqu'il impose au 
public une image concertee du lexique. 

Le lexicographe, on Ta vu devient en outre un intermediaire entre le pouvoir etatique et 
les utilisateurs de repertoires en consignant les decisions officielles qu'il filtre plus ou moins. II 
marque les avis grAce ft une serie d'intervention et d'etiquettes, introduisant ainsi un renforcement 
de la norme r le simple fait qu'il identifie I'autorite irterventionniste. Simultanement, il cree 
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une distance entre lui et les insttnces d^isionneiles. L*attribution d'un label officiel a pour effet 
de distinguer la norme sociale ordinaire, qui est rattachie & la description, de la nouvelle norme 
institutionnelle qui rattachie 4 la prescription d^origine legislative. Le consommateur n*a plus 
qu*A se soumettre 4 Tusage minist^riet ou ft le rejeter. La consignation fr^quente de Temprunt ou 
de la forme ft remplacer laisse le choix au IcKUteur. Si, d^sormais, les lexicographes rendent 
compte des avis, ils ne songent nullement ft se substituer aux autorit^ d^ignies. Cest ce qui 
expHque qu'ils 4(labellisent)> le plus sou vent les officialismes et qu'ils se permettent ft Toccasion 
des commentaires microstructuraux personnels ou des critiques ft T^g^rd des suggestions, Ainst 
dans le GRLF^ ft l'ertv6e bouteur. «REM. Ce mot n^est pas attest* ft notre connaissance dans 
Tusage spontan6e». 5/intriision du je (ici notre) dans le discours lexicographique est plutdt 
exceptionnel au sein des microstructures contemporaines. II est m£me ft remarquer d*une manidre 
toute particuli&re. De fait, si ce n^6tait de son Etiquette officielle, bouteur serait toujours dans 
Tantichambre ou le purgatoire des fichiers en attendant une probl^matique naturalisation 
lexicographique. 11 est manifeste que le commentaire du lexicographe signifie que la consignation 
de bouteur est contraire ft Tusage puisque ce n*est pas un terme ot^rvi et dont la vitality est 
d^moi^trde. Si Ton se fie aux diff^rents traitements qu^il regoit dans plusieurs DGM consult^s, 
bouteur serait une tentative de francisation infructueuse, une forme artificielie, un mot-^prouvette. 

Les lexicographes accueillent les officialismes mais pas ft nMmporte quel prix. lis n'assurent 
pas le g!te et le convert ft tous. Comme le souligne Tun d*eux, ils enregistrent ^des condamnations 
et recommandations officielles en mati^re de termes technique jug^ ind^sirables: Tintrusion de 
la norme prend ici figure officielle ministi^rielle et les dictionnaires ne peuvent refuser cette 
manifestation Evaluative et prescriptive, alors mfime qu'ils se veulent descriptifs}^ (Rey, 1983, p. 
546). Malgr* cela, ie lexicographe conserve toujours la prerogative de seiectionner les unites qu'il 
veut retenir. La subjectivity e5t en concordance avec Tideologie qu*il prdne lui-mdme et avec celle 
qui est fa^onnee par Tinstituiion dicttonnairique qui Temploie. Celle-ci a des objectifs de 
rentabilite economique qui ne :ont pas toujours en synergie avec Tefficacite didactique et 
scientifique des DGM. Au sens le plus noble, la fabrication de dictionnaires est Tun des plus 
importants maillons des industries de la langue et cela depuis des decennies, iongtemps avant que 
Ton reconnaisse Textstence de ce concept sous la forte pouss^e expansionniste des outils 
informatiques et que Ton fonde la '^linguismalique". 
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Annexe 



6. ANNEXE 

€.1 IMfinS 

ftH^nvro : QSM. --> 



ifttgrfaca: 



AREfiTti --> 
CRLF --> 

m -> 

PFP "> 

ARRETE -> 
Q nif > 

QRLF 



Qui n'ea* pas connects & un calculateur centra!, qui en% ind^pendant dec 
auirec ^^mfinls du gytUtm. 

Se dit d'un mAl6riel iorequ'il fonctionne ind^pendammfint de tout autr« (...). 

R«pr4t«nt^lan conTentionn«lle d'une information (fait, notion, ordr^ d*ex- 
^utiMi) aoua una fomw (analogiqu© qu digital©) p«nn«ttant d'en faire ie 
traitoment ftutom&tiqua. 

ReprteentaUon d*un« information •oufi un« form« convcntionnflIU destiny 
i faeiliter ton trftitament [...). 

Jonction cntre d€ux ^Um«ntfl d'un By$t^me informatique (voancxion phy- 
Mqu« ou connexion de programmation). 

Jonction entre deux mat^rick ou logicieU Uur p«rm®ttant d'*chang€r 6m in- 
formationB par Tsdoption de rtgl«« communea, phyfiiquea ou logiques. 

Docunr»«nt qui reproduit un« H«te (eouvent produit par Timprimante d'un 
ordinateur; (...)). 

R«conim. off. pour listin/r . 

Document en continu produit par una imprimante d'ordinateur 

EnMmbU d«a programmfw, procM4» et r*glfi«, ^entu«l!«ment d<a la do- 
cuiD«n4Btion, relatili au fonctionn«nrwnt d un ©nwrnWe da traiiemant dg 
r information. 

Ene«mU« d«s r^glM at d«rt progranMna« relatifi au fonctionnemant d'un 
ordinataur, par oppo«, h material *. 

Enjamble da programnw, procMH at r^fglea, at ^vantuelJamant da la 
documantation, ralatifs au fonctionnement d'\in cnaemble dc traitamant de 
I information. 

Enaambla das programmaa, proc6d6ii at r^iaa, at ^ventuellemant da la 
documantation, relatifs au fonctionnamant d'un anaamblc da traitamant d« 
donn^ (..,], 

Ensambla das ^l^f onta amploy4« pour Ie traitamant automatiqua de Tinfor- 
mat ion. 

Enaambia daa ^Itoianta physique* employes pour Ie traitamant de Tinfor- 
mation, par oppoa . k |piricj|^l . 

Ensemble d^ ^l^n>anls phyeiquas d'un ayat^ma informatique. 

Enaamble d^ ^Uments phyaiquaa employ 6e pour la traitemant dee donnfiaa 

TrmtenMBt simultan^ de pluaiaurv prograinme^ (par un ordinataur). 

Mode da fonctionnemant d'u . ordinataur aebn laqual plueieura proc^wurw 
«yant acc^ k dea m«nK>iraa communea pauvent op^rar en paralWa aur das 
progranvnae difFSranta. 

Sa dit da la representation da donn^ d'informatlon ou da grandaun phyat- 
quae au moyen da car»ct«raa, chiffrai. ayatAmaa, diepotittfe ou proc^diSs cm- 
ployant un mode de repr^ntation diaer^te. 

Qui utiliaa dm nombrea, dea grandeura diacr^taa (oppoa^ h analogiQuafV 
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DhotOBtvU: 



AS&SXg --> 
QBM --> 

Q Uf --> 

GRLF > 
SSM."> 



m. S« dit do b ras^^n^d^^ d4iiformmlioii« oy de frsiideurt phx«lquM mi 
moyan d« cstacUtm, t«lfl qu6 dM thlfnr««, ou w inoyms d€ lign&ux & ral«ur« 
difcr^lM. f...} 

b* 8e dil dm fyvltaios^ diapo«lli£i ou procid** •n^loyMit €« mod* d« re- 
prAMntMiM difcHUi. p*r ©pp. 4 nniJoriQtte . 

S« dil, pftr oppotilioti A Mtalofiquc, d« U raprAMnlaiion d« donnto 
ou d« frmndeura phyciquM %u moyen de cArMl^ref dtt chiffrn gi^nirBle- 
mtnt et hum! dM iy»UiMi» dl«po«ilifc ou proc^^ employao^ c« mode 
d« repr^MniiUlon discrete (...]. 

Dispotitlf pormetlaal dinlroduire dans !a n^moire d'un ordln&teur un« 
information (coordom?^ ponclueUes) but un 4cr&n de vioualiisllon (.«.). 

Diip^lif d'enlrte que l'<^rateur pointe dtreciemenl lur I'Acran dSme visu 

«OrfmniMm exploitent un ByttAme Informslkiue perroettmni k un demandeur 
la coneullallon «t rutilisation diraciea d'une ou piuaieuni banquea de don- 
n4«» poum, oft. 17 janv. 19S7). 

Organiame axploilaot un ayaltaM lnf<mnaliqu8 parmettant h un damandefur 
la coMultalion el TulUiaation direciae d'una ou pluaieun banquet 
da donn^ai. 

Docunmil gn^>hiqtta r^uitan^ du tranafari sur un aupport permanent d*une 
image 

Document gr^hique r^ultant du tranafart tur un tuppoit permanent d'une 
image prteantW aur una viau {...]. 

Dispoaitif d'afflchags, d'inacription lur un ^run ou una conaole 4 tube 
cathodique. — Par ext. L'^ran» la conaole [...). 

AppareU pormettant la prAientation vieualle at non permanente d'informa" 
tlone f...]. 



6.2 OfficSalisatlon: ^nonc^s et marqutyrs 



^utonome; 

donn^a: 

interfac<^: 



muUUraUemant 
nunrtrioue: 



GRLF --> 

Q^ f '-> 
T -> 
gRLF -> 

PFP -> 
PLI --> 

E£E -> 

m --> 

fiBIiE - 



■yn.: non coniwct* (angl. off-Una) . |RA-AI] 
(pour traduira rsoyl. ^tfi^) . [RA-AI) 

REM. Dan« c« Mnf, 1* mot Mt •dmia (Journ. off., 13 j&nv. 1974) &inti que 

ifinsiifia. [ri] 

rsconur. off. pour francioer I'anglic. ligting. n.m. [...j. (CD) 
Rocomin. off. pour lUftng . (DM) 

REM. L'sdnviniitration recommonde ce iermo pour traduire i'ang)ai« 
lofijEfiEs'. [RI] 

(Mot reconunandA pour rompl^er SS0£&£S ) {R^i 
Recomm. off. pour toftyftry . (Rl) 
R«conun. off. pour hRrdf>ar« {. |. [RI) 

(Equivalent fran^aU recommajadi pour rempl&car fa fwrdway^ .) jRI] 
(R«comm. off. pour hSCfeMS ) l^) 

REM. £quival«nt propose pour r«mplac«r I'aoglicUme muHiproteMing. [RI] 
(raconun. off pour rampiacer d» )fital *l (CD) 
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Q£C ""> (Tarnw ofBci«ll«nMnt r»cominand« pour Mmplftcer diiritial .) [RI} 

"> Syn- (»«»f»l«- d*conMlll4): dldtfU . (...l gyn.; digital . (RA] 

Satt "> (erM pour nndn l'fAgl»i( Utii|_s^; r«conun. off.) (CDl 

ittSClMr fifiyt — > «Orf»iilMD« exploitant ub tyattaM Infonn&tiquc pertnetiMit * im dem&ndeur 

U eoBMiltatton «t 1 'utilisation directct d'une ou plusiaura banquea de don- 
n*o*» fJowni. off.. IT janv. 1982). (DR) 

IkBgfi: GlU»f (rocomm. off. pour I'&ni^. t^tntj <?9 p y) . (CD] 

XkUll: GRtr — > (trad, offic. da I'angl. dwrisy) . (CD) 
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Au cours des dernidres ann^, et avec le g^n^reux appui du Conseil de Recherches en 
Sciences Socials du Canada, nous avons travail!^ t r^latK)ration d^un Dictionnasre Inverse de 
rEspagnoI ^labor^ h Taide de Tordinateur et contenant les quelque 181 000 mots qui constituent 
les lexiques de 16 ouvrages lexicographlques de T^pagnol^ 



Lors du d^roulement de ce travaiU nous nous sommes heurt^e, dds le d^but, & un probldme 
de notation. En effet, m£me si Tespagnol est probablement la langue romane qui a ie taux le plus 
6Iev6 de correspondance entre son systdme phonologique et son code orthographique, cette 
correspondance est loin d^Stre absolue, m6me au niveau phonologique. ^videmment, nous aurions 
pu opter pour Temploi d'une transcription phonitique plus ou moins large. Toutefois, cette 
solution nous est vite apparue peu ^nomique, et cel^ pour deux raisoos prtncipales: 



a) les cas probldmes nUmpliquaient que quelques phonemes eu 

b) afin de faciliter la consultation de notre dictionnaire, 6labor6 & rartir de sources 
^crites^ nous voulions que dans !e produit fini, les mots appv>raissent comme ils 
s^^crivent couramment en espagnoL 



Le but de cette communication est d'exposer les probl^mes qui se sont pos6s et la mani^re 
dont nous les avons r^solus. 



Notre objectif ^tait, nous le rappeions, de permettre i Tordinateur de classer les mots du 
corpus d'une fa9on rigoureusement phonologique, ind^pendamment des divers graphemes utilises 
Pvur ies transcrire et, en m^me temps, de presenter ces mots avec leur orthographe courante en 
espagnol. 



Afin d'atteindre cet objectif il a fallu, dans un premier temps, identifier les cas posant 
probl^me. Ceci a €t€ relativement vite fait et nous avons trouv6 trois groupes de cas probl6mes 
impliquant des consonnes et un impliquant des voyelles, comme suit: 



L PHONi:MES CONSONANTIQUES NORMALEMENT TRANSCRITS EN ESPAGNOL PAR 
DES '^GRAFHtMES COMPLEXES'* 

En premier lieu, il y avait les six phonemes consonantiques transcrits en espagnol par des 
**graphemes complexes^ c*est-d-dire par plus d^un grapheme. Parmi eux, cinq sont des phonemes 



F&itelflon- Wd9«r, 9 (1987); DIASLE: Dictionnaire inverM et anaJxi^ stalisUque de ta langue eepacRole - Diccbnario inverfo 
y analUU eaiadUtico da la Iwgua eapanola. - R^eree Dictionary and SlatUtScat Analjraia of th« Sp&nUh Language. 
Lm Presses de i'Uniyervit^ Laval, Quebec. 
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assez courants en espagnol. soit raffriqu*e /tff, tiaaicrite par ch, comme dans chico 
la vibrante longue /r/, repr^nt6e par it. comme <Safis perro, la palatale Iat6rale Ihj 
ttanscnte par U, o^mmt dana le mot c«ll«, la v«laire sourde /k/, qui peut parfois 
etre representee par fa A ces cinq phonemes courants de I'espagnol il fallait 

ajouter le phonAma ffi, present notamment dans des emprunts r6cents et transcrit par sh. comme 
dans le mot flash. 









Exompiss 




^/ 


ch 


chk:o 




(petrt) 


ni 


rr 








iki 


II 


c&ie 




inm) 




8h 


Hash 




(flash) 


fkf 


qu 


qufrer 




(voufoif) 




gu. 


0uiar 


/gj'ar/ 


(guder) 



2. 



GRAPHEMES CONSONANTIQUES REPRfeSENTANT PLUS D'UN PH0N£ME 



Un autre cas probl^me 6tait ceiui des graphemes consonantiques servant k transcrire plus 
d un phonfcme. Cest le cas des graphemes c et g, qui reprisentent deux phonemes different^, 
selon qu ils sont suivis d'une voyelte antiriwire (I ou e) ou non. En effet, suivi de ces voyelles, 
le grapheme c transcrit le phoneme /e/(par exemple, claco) et dans les autres cas, le phoneme /k/ 
(c«x«). -Quant a*u8«ph«m©.g,.wwrt e-xm J, -H se lit /J/tttaeral), ef dans les autres cas, /g/ 
cemme dans gato. 



Oraphdmes 




Exampfss 




c 


/e/ (d«vant/a/ouA/) 




(r<nc 




Ik/ {dans les lUi^as cas) 




(ch:use) 


0 


/Jf / (dsvar^ /g/ ou ri/) 








Jg/ (dans Ids a^ss cas) 


S>ato fgaio/ 


(chat) 



3. PHONfcMES CONSONANTIQUES JlEPRtSENTfeS PAR PLUS D UN GRAPHEME 

Or s'il y avait seulement deux cas de graphemes simples servant a transcrire 
plus d'un phoneme, nous avions aussi & nous occuper de cinq cas de phonemes qui 
peuvent etre repr^nces ?n espagnol par plus d'un grapheme. En effet, dans cette 
langue, les phontaai /ft , /X/, /k/, /g/ et /b/ peuvent etre transcrits par plus d'un grapheme: le 
phoneme /&/ est tuttdi represeate par c (clnco), tantdt par c (encore caza), tantdt par k (dans les 
mots d origjoe etrangere, comme kfloractro), et aussi par qu (q«eri?f ); le phoneme /g/, tantdt par 
g (g«to), tantdt par ga (gular) et, finalement, le phoneme /b/, est represente tantdt par b (beber), 
tantdt par v (vlvlr). 
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PhonAmos 


Graphdmat 




Examplaa 




/e/ 


c 


cinco 


/"einko/ 




- 


z 




/VaSa/ 


(cha&se) 




0 


0eneral 


/Xene'rat/ 


(g^n^rai) 




] 


junta 




(reunion) 


/k/ 


c 


caxa 


rkaGa/ 




n 


k 










qu 






(voulofr} 


/g/ 


C 


0ato 


/■gato/ 


{chat) 




gu 


guiar 




(gutder) 


/by ■» 


b 


beber 


/be'ber/ 


(bCHre) 




V 


vivif 


/bi'bif/ 


(vivre) 



Dans tous les cas dont nous venons de parler, il fallait faire quelque chose si nous vouHons, 
comme c'6tait le cas, que la machine puisse trier ensemble les phonemes, et non simplement les 
graphemes. 

Le cas le plus simple ^ rigler 6tait celui du phoneme /b/, dans lequel il suffisait de 
demander k Tordinateur de ne pas discriminer lors du tri entre les deux signes, et c'est ainsi que 
nous avons proc6d6 (au tableau 1, on peut voir que les deux, ensemble, occupent le rang 27), 

Les autres cas ^taient un peu plus compliqu^s et nous avons opt6 pour la creation d'un 
ensemble de "caractfercs intefm6diaires" qui son! ceux qui figurent au tableau I sous 
la rubrique "caractdre d'entr6e". Ces caractires pennettaient d'6tablir une relation univoque - un 
grapheme « un phonime et seulement un phoneme - entre tous nos signes et Ics phonemes qu'ils 
reprdsentent. Cette relation d'univocit^ 6tait indispensable pour que Tordinateur puisse trier nos 
mots selon leurs caractfirisUques phonologiques et presenter ensuite, une fois les tris 0p6r6s, par 
une simple commande de conversion, les mots avec leur orthographe courante. 

Ainsi, pour les fins du tri, nos six "graphemes complexes" ont 6t6 entris comme des 
majuscules simples et un rang de tri particulier leur a 6t6 attribu6: le double 11 a 6t6 entr6 comme 
L majuscule (comme dans cALe) et class^ au rang 9, alors que le 1 minuscule, repr^nunt le 
phon6me lateral non palatal /I/, 6tait class6 au rang 10; le rr, entrteomme R majuscule (pERo). 
6tait class6 au rang 12, aprfes le r minuscule simple (phon*me /f/), class6 au rang II; le groupe 
ch, entr6 comme C majuscule (CIco), obtenait le rang 13, different du rang 33 du c minuscule; 
le groupe sh, quand il repr6sentait le phoneme palatal ilP, a entre comme S majuscule (HAS), 
et cldss6 au rang 14, avant le s minuscule, servant & transcrire le phonime /s/, et situ6 au rang 
16; quant aux ensembles gu et qu, ils ont tit er^res respectivement comme G majuscule (GlAr) 
et Q majuscule (QerEr), et tri6s, ainsi que nous le verrons tout de suite, sous les rangs 32 et 33 
avec d'autres signes, Une fois les tris effectu^s, les majuscules ont tit reconverties en signes 
complexes. 

Quant aux cas des graphemes simples pr6sentant des relations non uuivoques avec les 
phonemes qu'ils transcrivaient, et vice- versa, nous avons adopte une solution scmblable. Nous 
avons d'abord, au moyen de majuscules employees comme caractdres d'entr6c, d^sambiguis* ia 
relation et ensuite, nous avons, comme nous I'avons fait pour les grapht nes b et v, demand* d 
Tordinateur d'attribuer un m6me ranglors du tri aux divers signes - majuscules ou minuscules - 
correspondant au mfime phondrae, Ainsi, ies c minuscules, qui repr6sentaient le phon6m« /W, 
ont ttt entrts comme des Z majnscules (ZInco) et ces Z nrajuscoles ont 6t* tnts au rang 17, avec 
les % mifittSCiUes (cAza), transcrivant le mfeme pliondme. Les graupe» g», dont new avon§ d«jA 
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parW, qai avaiant M estrte cornme dea O majuscules, ont 6t6 tri«s au rans 32 avec les a 

WW aes groupas qa, tnoacritt par majuscules et trids au rang 33, avec les c minuscules et 
^ k, poisque 1^ troji aaprtomtMt )e phon&me /k/. Finalement, les a suiv? de e oTdel' It 

^JniST^«?J' "T*!?"*^/ "*P* dans le cas d^rapWmes 

fSfn^ L ^ ^ effectu^f. les majuscules sent redevenues les minuscules qu'ell^TtSn 

avant leur conversion en "caract^res d'entrie", tel qu'indique sous la rubnque "carac?"re d'Lidon" 



TABLEAU 1: 
Solution adoptee pour les consonnes 



Rang 
de tri 


Valauf 
phonologlqua 


Caractirs 

d'entr^a 


Exempia 


VMf WIG'S 6 

d'ddltion 


c A0rnpto 


9. 


/A/ 


L 


cALe 


p 




12. 


fr/ 


R 


pERo 


rr 


perro 


13. 


/If/ 


C 


CSco 


ch 


Chico 


14. 


/;/ 


S 


flAS 


Ah 


flash 


17. 


/e/ 


z 


cAza 


z 


caza 






z 


ZInco 


c 


cinco 


27. 




b 


bobEr 


b 






Nl 


V 


vrvir 


V 


vivir 


32 


l9f 


0 






gate 






G 






gMar 


33. 


/k/ 


c 


cAza 


c 


caz2 






k 


WWmeiro 


k 


kH6metro 






0 


OerEf 




querer 


35 


IXI 


j 


jUn*a 


1 


junta 






J 


JenerAt 


g 


general 



4. LES VOYELLES 

^u^^' ^} des voyeiijs. il n'y a en espagnol qu'un vrai cas de relation non-univoque 
^.^^Tj^^^^^F^^'i^ Phondme vocalique /u/. normalement repr6sent6 par le grapheme 

c.TTST\ "-^i* ^""^^ « ""f, "^^y*"^ ant6rieure (e ou I) est transcrit comme 0 tr6ma. Le 
CM a et6 trait6 comme les cas d'ambiguit^ consonantique; les a ont 6t6 entr6s avec des W 
majuscules et triAs au rang 31, avec Jes autres u minuscules. 

Toutefois. nous voulions. dans notrc Dictionnaire, et contrairement a la pratique courante 
des dictionnaires de 1 espagnol, tenir compte de la difference entre les voyelles toniques et les 
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voyelles atones, qui nous semblait tr^ importante pour un Dictionnaire Inverse. Cette exigence 
a tout de suite introduit un nouveau problime d'ambiguit^. En effet, en espagnol, on peut 
marquer Taccentuation d*intensit6 d'un mot en mettant un "accent aigu" sur la voyelle qui porte 
cette accentuation, mais les voyelles toniques ne portent pas tou jours cette marque, ce qui donne 
la situation pr^sentte dans le tableau qui suit 



Phonim«ft 


QraphAmai 




Essmpfea 




/a/ atone « 


a 


casa 


/ItSisa/ 


(mateon) 


t a/ toniQufi • 


a 


casa 


A<Bsa/ 


\rnaison; 






rrvarnA 


M>a'ma/ 


(maman). 

%WCII fl\»40> 13/ 


W atc>na 


a 


nana 


/•nana/ 


{b«b«} 


tonique - 


e 


nana 


/"nana/ 


(bAb«) 






babi 


A>6'be/ 


(b^b^) 
(faible) 


N atona " 


i 


dlf)di 


/difieH/ 




N tonlQue ^ 


1 


rice 


/'riko/ 


(ncha) 




1 


ma\ 


/ciiTf6il/ 




toJ atone 


0 


mano 


fmanof 




fol t- uqu0 


0 


haNo 


/'abkv 


Qepafle) 




6 


habl6 




0apafi^) 


tul atone 


u 


pubitco 


/pu'Wiko/ 


Oapubiie) 




U 


agUero 


/a'gwera/ 


(ai^ra) 


/"u/tontque 


u 


cutis 




(paau) 






pCiblIco 




(puNc) 



Tenant done, ainsi que nous i'avons dit, ^ s^parer les voyelles toniques, nous 
avons fait appel, une fois de plus, ^ nos "caractferes d'entree". Cette fois-ci, nous 
avons entr6 en majuscules les voyelles toniques qui ne portaient pas d*accent 6crit. 
Ainsi, au Tableau II on "onstate que le premier /a/ du mot casa, qui est la voyelle 
tonique, est devenu un A majuscule, ainsi que le /e/ tonique du mot neae, Ic /i/ 
tonique de rico, le /o/ tonique de monte et le /u/ tonique de cutis. Ces conversions effectu6es, 
nous avons attribui, lors du tri, un seul et meme rang k chaque voyelle tonique, qu'elle soit 
repr^ntie par une voyelle accentu6e ou par une voyelle majuscule (rang 3 pour A accentui et 
A majuscule, rang 5 pour « accentui et E majuscule, rang 7 pour I accentu6 et I 
** Juscule, rang 28 pour 6 accentu6 et O majuscule, et rang 30 pour a accentu* et U majuscule). 
Un rang different a €t€ attribud aux voyelles atones, transcrites toujours. sauf pour le 0 dont nous 
avons d6j* parl6, par des minuscules (rang 4 au a atone, rang 6 au e atone, rang 8 au i atone, 
rang 29 au o atone, et rang 31 au u atone, represents par u minuscule ou par au W majuscule). 
Comme dans les autres cas, aprds les tris, les majuscules ont 6t6 remplacfees par les 'caract^res 
d Edition" correspondants. 
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TABLEAU 2: 
SolutioD adopUe pour les voyelles 



Rfing 
de tH 


phonoteglqut 


CaractAre 
d'antr«i 


Exsnnple 


Caractdre 
d'tdltfon 


Esempfi 


3. 


/a/ (tooique) 






& 








A 


cAsa 


a 




4, 


/a/ (atone) 


a 


cAsa 


a 


casa 


5. 


/fli/ (tonique) 




bebe 


« 


beb^ 

uSDh 






E 


nEne 




nene 


6 


/e/ (atone) 


a 


nEne 


e 


nena 


7, 


/i/ (tonk3ue) 


1 


ftoo 


1 


dmcil 
rloo 


8. 


/i/ (atone) 


i 


difiZil 


i 


diftal 


28 


/o/ (tonique) 


6 


haNd 


6 


habid 






0 


mOnle 


0 


monte 


29. 


/cv (atone) 


0 


hAbto 


0 


hablo 


30. 


/"u/ (tonique) 


u 


publico 


u 


put^iCO 






U 


cutis 


u 


cutis 


31. 


Ai/ (atone) 


u 


publico 


u 


publico 






W 


^WEro 


u 


agliero 



Cette maniire de faire qui posait - nous a-t-on assure - tres peu de probldmes du point 
ae vue de la programmation, et qui 6tait relativement facile k appliquer lors de la saisie des 
donn6es, nous a permis d'atteindre nos objectifs. En effet, dans notre Dictionnaire Inverse et 
Analyse statisuque de la langue espagnole, tous les mots sont classes selon un alphabet 
phonographiqm^ qui tient compte de leurs traits phonologiques tout en les pr6sent/mt avec leur 
orthographe courante. 
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Auteure Catherine Ptqufignat 

Laboratoire de G6nie informatique, Grenoble 

Titre Conception en DELPHIA-PROLOG d'une interface simple 
efflcace pour Tinterrogation de bases de donn^es 
fran^ais - Une application industrietle 

RtSVMt 

Le but est de construire dans des temps raisonnables : 
J ) des interfaces relathement simples; 

2) faites pour des SGBD dont le langage d' interrogation est de type SQL en 
fonction d'heuristiques ginirales et comporionl un maximum de composanis 
r&utilisables d'une application d Vautre. 

Ceci nous a conduit it la definition d'un noyau du systeme dit statique, dont la 
conception et la realisation sont prisent^es brieyement dans cette communication. Par 
ail lews, et de fagon tout it fait exp^rimentale^ nous ayons voulu ouvrir ce type 
d'inter faces 4 certaines procedures d'evaluation deductive de requites, possibles du 
fait de renvironnement PROLOG du systeme. 

II s'agit aussi d'expliciter nos heuristiques dans la perspective de definir et de 
realiser un systeme dynamique, i.e. un systeme integrant des composants permetiant 
V acquisition contrdiee semi-automatique de Vinformation lors du passage d'une 
application d VaiUre. 
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Titre Les cor^structions fibres de forme Nom + Nom 



A c6U de formes fig^es dont les constituants som soudis. il existe en 
frangais des constructions litres Nom -t- Nom (not^es Nl N2) pricMies ou non d'm 
determinant. 

A une structure de surface unique Nl N2 correspondent en fait plusieurs 
phinom'enes qu'on peut delimiter d I'aide de criteres syntaxiques : 

•Le N2 adjectival (Ex : une visite 6clair, une note limite; csi un nom qui a 
acquis un statut adjectival autonome. II peut g^niralement apparattre en position 
d'adjectif attribut et subir une modification de son degr^ d'intensiti. 

♦Les N2 apposes se construisent par simple J txtaposition (Ex : une femme 
m6decin, un objet symbolej et sont paraphrasavles par une phrase h verbe itre. 

•Les compliments de nom construits sans proposition rapprochables de 
compliments de nom pripositionnels (Ex : le r6seau banlieue « le r^seau de ia 
banlieue, un fichier matieres « un fichier par matidres;. 

♦Les juxtapositioits par coordination (Ex : une derivation-composition, un 
teinturier-blanchisseur^ sont un phinomene plus lexical que syntaxique. 

♦Les Nl prOpositionnels. non pricidis de determinant, introduisent directement 
les noms et sont parfois rapprtKhables de groupes pripositionnels 
dMoppis ( Ex : c6t6 6tudes = du cdte des etudes 
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Titre De qiiek|ues proc^d^s de caract6risation des noms d'action en 
fran^ais 



RtSVMt 

On connatt la difficult^ de digager en franfais les diffirentes categories de noms. en 
particuUer la difficult^ qu'il y a it caractiriser les noms d'action. Plusieurs criteres ont it^ 
proposes que Von examiner a brievement et dont on montrera les insuffisances. 

On propose d'examiner les noms dans un cadre aspectuo-temporel et d'itablir 
diffirentiellement des traits de categorisation exactement comme on le fait pour les verbes 
(ex. traits duratif. terminatif, ponctuel de la classification vendlerienne): ceci : 



B en les faisant entrer. comme argument, dans des constructions verbales considir^es 
comme prototypes de Vexpression predicative de dur^es, durer Quant Nfps, mettre 
Qu&at Ntps, prendre Quant Ntps, passer Quant Ntps. 

■ !cs combinant, toujours dans un rdle d'argument. avec des verbes ayant par nature 
la fonction d'auxiliaires aspectuels dans la specification des phases de deroulement 
d'une situation: commencer N, se mettre k N, Ctre en cours de N, cesser N, achever 

■ en les examinant dans leur fonction de noms predicatifs. avec des verbes support 
dotes d'un semantisme explicite d'action ou d'etat, ex, procider & op^rer N, sublr 
N, «tre dans N (en N, k N), 

■ egalement. en les confrontant avec des adjectifs ou des adverbes manifestant des 
proprietes semantiques d'action ou d'Hai bien etablies. 



Ainsi, on arrive d degager quelques criteres operatoires permettant de faire la distinction 
entre differentes categories de noms: en tout premier lieu, la distinction entre noms d'etat 
et noms d'action, puis parmi ces derniers, la mise d jour de sous-classes distinctes sur la 
base de la nature agentive du sujet logique (par ex. action volontaire vs action non 
volontaire). 
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RtSVMt 

Le dicoupage d*un texte en unit^ lexicales est wxe operation fonJamertt ale dans U'i grand 
nombre de processus de traitement automatique des langues nature! les. Son automatisaiion 
pourtant souleve un certain nombre de difficultis, 

D*une part, un texte (au sens large) contient de Vinformaiion textuelle (suites de mots) 
et paratextuelle ( numiros de pages, r^/^rences, etc ) Comment faire pour qu'un systeme de 
dicoupage ne confonde pas ces deux types d'inj ormaiions? D'autre part, le d^coupage 
automatique de textes est tris souvent une operation qui s'insere dans urt processus plus large 
de traitement de la langue. On d^coupe un texte en vue de pouvoir le traiter. Par sa nature 
done, un systtme de d^coupage devrait itre en mesure de produire des risultats qui 
s'adaptent d un grande variit^ de systemes de traitement automatique de la langue, 
Finalement, un ban systeme de dicoupage devrait itre en mesure de reconnoitre les uniti 
lexicales graphiquement complexes. Un mot comme pomme de terre devrait itre reconnu 
comme it ant un seul mot et non pas trois. 

Nous prisentons deux logiciels, DAT et SYREX, qui se veulent une solution partielle aux 
trois prohlemes que nous avons soulevis. Le premier logiciel dicoupe un texte en mots 
graphiquement simples. Le second reconnatt les imitis lexicales graphiquement complexes. 
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Titre Degrt de figement des composes N de N 



RtSVMt 

Le recensement systimcaique des noms composes de type N de N pose de difficiles 
problemes de dHimitaiion de ce qui est ou n'est pas fig^. Les nombreux (ravaux sur ce 
point de la tradition grammaticaie ne nous sont pas d'lme grande aide puisque les definitions 
qu'ils proposent ne sont que des variations autour du theme de "I'idie unique', critere 
s^mantique dont il est trks facile de dimontrer qu'il n'est valable que pour les composes 
figis, c'est-d'dire ii peu pres 15% des ccmposds. Le but de cette communication est de 
mettre en evidence les propriitis syntaxiques du second substantif (determination propre, 
compatibility de cette determination avec celle du prem'r substantif, rupture distributionnelle, 
pronominalisation par en. remplacement par le possessif ou par un adjectif de relation, etc.) 
et de montrer ainsi que la composition correspond ii des degr^s de figement differents, 
reprisentant un nombre de classes tres ileve. 



On en tirera comme conclusion que les descriptions qui ont iti pro posies dans la 
litterature grammaticaie ne rendent pas compte de I'importance de la notion de figement 
car elle reduisent le phenomene & un cos particulier seulemeni, d partir duquel on forge un 
critere qui masque la complexity du phenomene. 



^^^^^^^^^^^^ DiCTfONNAIRES eiECTRONIQUES 

0 6 L A S ET D E L A C 

Laborttoiiie d'X Lingulstique, Paris 



INTRODUCTION 

Lt systeme DELA des dictionnaires electroniques elabores au Laboratoire d'Auiomalique 
Documentaire et Linguistique a pour but la description et Tanalyse de la langue fran^aise en vue 
dcs traitemenis sur ordinateurs. Par systeme de dictionnaires;, nous entendons unc base de donnees 
linguistiques, et les programmes permettant de les traitor. 

IJne description systematique de la langue implique la representation de la syntaxe. A cet 
egard, de nombreux travaux ont ete realises au LADL, en particulier sur la syntaxe des verbes, 
largement decrite sur les tables du lexique-grammaire (J. P, BOONS, A. Guillet, C. Leclere, M. 
Gross, I976» 1979, 1982, 1988). Toutefois une description linguistique complete necessite egalement 
la construction de lexiques contenant Tensemble des mots de la langue, avec toutes leurs variations 
de formes, Cest Tobjectif du systeme DELA. 

Sur le plan formel, Pemploi du separateur comme le blanc entre les mots fait que les unites 
de texte se repartissent en mots simples et mots composes. 

Les mots simples sont des sequences contigues de lettres, comprises entre deux scparateurs, 
telles r;ue. ^ahle. manger ions c\ done. 

Les n ots composes sont des sequences comporfant au moins un separateur, par exemple le 
hianc {ponune de terre), le trait d'union {face-a-jace), Tapostrophe (aujourdhui), ou une 
combinaison de separateurs {cest-d-dire), 

Kn consequence, nous distinguons dans le systeme DELA deux types de donnees et de 
lexiques. l»^s unites :>inv>le: sont rassemblees dans le dictionnaire de mots simples appele DELAS. 
l es unites co'npusees so it dans le dictionnaire de mots composes DELAC. 

Dans le DEL AS, chaque mot simple est accompagne du code de sa classification 
morphotogique. Cette classification est systematique, et sert de base a Texecution d'une procedure 
automatique de generation de formes flechies. LVnsemble des formes con^^!*uites k partir des mots 
du DLLAS constitue le dictionnaire DELAF\ 

En parallele avec ia classification morpholog* jue, une representation phonemique a etc 
elaboree, et son application a Pensemble des mots du DFLAS a permis de construire les 
dictionnaires phonetiques DELAP (E. Laporte, 1988). 

Depuis les debuts de la traduction automatique, de nombreux systemes d'analyse 
morphologique ont ete proposes Cest un exercice de choix pour etudiants en informatique, Mais 
c'est la premiere fois qu'un lexique de taiUe realiste est constitue avec une description systematique 
de la morphologie. A ce jour, Pensemble des m )ts simples du DELAS comporte plus de 70 000 
mots, et celui des mots composes du DELAC plus de 80 000 entrees. 



ERIC 



67 



70 



Blandine Courtois ct Max Silberztein 



CARACTfeRIQUES DES DICTIONNAIRES £lECTRONIQUES 

Entre les dictionnaire? electroniques et les dictionnaires usuels, i! existe des di<"ferenccs 
structurelles profondes. Sans reprendre la discussion relative aux diffe'-ences entre les uns el les 
autres {M. Gross, 1988), mdiquons cependant quelques proprietes et contraintes des dictionnaires 
electroniques. 



1) Descriptions syst^matiques 

Dans les dictionnaires usuels, certaines informations et regies ne sont pas notees parce que 
supposees connues. Par exemple, dans le Petit Larousse illustre 1986, la regie de formation du 
pluriel des mois en al est implicitement la suivante: le pluriel des mots en «/ ^^st en au\ D'oii 
1 absence d'lndication de la flexion: 

un Journal — des journaux 

et Pimpossibilit^ de irouve.- le n?ot journaux dans le PLl. 

Une telle presentation implicite des mots et des regies est inadaptee aux dictionnaires 
electroniques. Ceux-C( doivent contenir des representations systematiques. aussi bien des mots 
que des regies, et ces dernieres doivent etre definies sans ambiguites pour toute entree lexicale 
tn consequence un diction: lire morphologique comportera, pour tout nom et adjectif ime 
description de la mise au ftminin et au pluriel, et pour tout verbe une description de sa 
conjugaison. ^ 



2) Donn^er formelies 

Dins les lexiques du LADL, les mots sont consideres sous leur aspect formel, les donnees 
retenues etant strictement syntaxiques et morphologiqucs. Les donnees d'ordre culturel ou 
etymologique ne sont pas prises en compte, parce qu'ellcs ne sont pas significatives pour I'analyse 
synchronique de la langue ^ laquelle visent les dictio naires electroniques. En outre aucune 
information semantique n'est introduite, du fait qu'il n'existe pas de systeme de description 
applicable a tous les elements de la langue. 



3) Acc^s normalises 

La recherche de mots dans un dictionnaire usuel presuppose un niveau connaissancf du 
lecteur, et table sur sa faculte d'interpretation. 

p'une pan, une mfime graphie peut apparaitre dans plusieurs entrees lexicales, en nomhre 
variable selon les dictionnaires, le choix de I'entree utile etant laisse au iecteur. D'autrc part 
pour atteindre un mot compose ou i-.ie expression figee, I'acces se fait par Tun des mots consti- 
tuants, choisi sur des criteres lexlcogi aphiques non definis. Par exemple dans le PLI, I'expies- 
sion angle de iir se trouve dans I'entree //r, le tir a blanc se trouve dans I'entree Nanc Par 
contre, hlanc d'oeuf ne se trouve pas dans i'entree ocuf, mais dans I'entree blanc. Le^ piocedures 
dacces aux mots dans les dictionnaires sont done variables. Au contraire. dans les d.ctionnaires 
electroniques, ces procedures sont necessairement normalisees et identiqi-es quels que soient les 
mots recherches. 
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4) Extesisivit^ 

Outre les aspects systematiques et normalises d*»s dictionnaires dectronique^, il faut signaler 
aussi leur objectif d*une couverture lexicale aussi etendue que possible, Le but de cette large 
couverture est de permettre des applications nombreuses et diversifi^es, par exemple: 

■ la reconnaissance de mots dans des textes, quel que soil le domaine traite, 

B Tanalyse syntaxique, prenant en compte tous les emplois des mots, ainsi que toutes les 

constructions possibles de phrases, 
m Telaboration de dictionnaires specifiques: homographes, lexii^ues tries en ordre inverse, 

lexiques par parties du dtscours, 

■ la verification orthographique automatique, 

■ Panalyse et Teiude statistique des mots eux-mSmes^ de leur frequence, leur structure 
et leurs mecanismes de formation, 

m et toute la gamme des jeux bases sur la combinaison des lettres dan<? les mots, tels les 
anagrammes, mots croisds ou scrabble. 



5) Coh^rebce 

Des imperatifs de coherence des donnees sont h respecter tors de la conception et de la 
realisation de dictionnaires electroniques. Du fait de la notation systematique des informations 
associees k chaque mot, le format des entrees est homogene, et chaque entree a une structure 
interne coherente. 

Cependant, afin d*obtenir une plus grande homogeneite des lexiques, nous avons distingue 
au LADL trois ensembles contenant des unites de texie differentes: 

1) les mots simples sous leur forme canonique 

2) les formes flechies 

3) les mots composes 



Cos trois ^^nsembles seront done presentes separement dans la suite de cet expose. 



Le iexique DELAS 



DELAS est le Dictionnaire Electronique du LADL pour Its mots Simples du frangais. 
Nous en donnerons d'abord une vue globale en decrivant la structure des donnees, :nec des 
exemples concrets d*entrees lexicales. Ensuite, nous examinerons separement chacun des elements 
constitutifs d*une entree: mot, classification grammaticale, code morphologique. 



!• Entrees du DELAS 

La structure d*une entree se decompose en deux parties: 
■ un mot simple, note sous sa forme canonique, 
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■ des informations grammaticales et morphologiques associees, se presentant sous 
forme d'au moins un code morphologique. Celui-cJ se compose pour les mots 
variables de deux elements: 

1- un symbole de partie du discours, (N pour les noms, V pour les verbes,...) 

2- un num6ro de code morphologique, lequel renvoie ^ une classe formelle de 
variations morphologiques. 

S'il s'agit de mots invariables, ce deuxieme element est omis. 

Les differents exemples donnes ci-dessous illustrent la structure des entrees du DKl.AS: 

{ahle..N2} 
soigneux,.A63 
grandir.y 18 
admirablemcnt,.ADV 

Dans ces exemples, les codes .Nil, .Ab3. .V18, .AD\\ representent respectivement: 

■ A^2/ un nom feminin singulier, formant le plu! -el en ajoutant s i la fin du mot 

■ A63 un adjectif de formes identiques au mascuiin singulier et pluriel, et prenam les 
termmaisons respectives e et es au feminin singulier et pluriel, 

■ V18 un verbe regulier du deuxieme groupe, 

■ ADV un adverbe invariable. 

. •^'l-rr'^^^' tlict'onnaire DELAS comportait plus de 64 000 entrees, qui sont toutes 

de graphies diff^rentes. Ceci entraine le rassemblement des mots de meme orthographe dans des 
entrees communes, ce qui mmimise le nombre 'Jes entrees. En fait, Pensemble du DFLAS 
represente un corpus de pres de 72 000 mots. 



2. ELEMENTS CONSTITUTIFS DES ENTRI ES 
2.1. Mots du DELAS 

2.1.1. Formes canon iques 

Nous sommes habitues dans les dictionnaires usuels i la repre.sentation de*; mols sous leur 
forme canonique. Celle-ci a ete adoptee dans le lexique DFXAS Done: 

■ les noms masculins et les adjectifs sont mis sous la forme du masculin singulier, 
B les noms et adjectifs exclusivement feminins sous la forme du feminin singulier', 

■ les verbes sous la forme infinitive. 



2.1.2 Mots simples 

Par definition, le DELAS ne contient que des mots simples, c'est-a dire ne comportani 
aucun separateur tel que le blanc, le trait d'union ou I'apostrophe. Les mots composes comme. 
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par example, arc-en-ciel ou ver de terre, sont recenses ailleurs, dans les tables du dictionnaire de 
mots composes DELAC, En outre, les mots sont exclusivement en minuscules, accentuees ou non. 
Les mots avec des majuscules, noms propres et sigles, sont reportes dans des listes annexes. 



2.1. 3. Mots venant de coniexies identifies 

Certaines entrees du DELAS sont a noter parce que les mots qui y sont consignes n*ont pas 
d'existence autonome en tant que mots isoles. Ce sont des mots qui n'apparaissent que dans des 
contextes bien identifies. II s*agit: 

■ soit d'unites issues de mots composes comme tohu. bohu. ex. libris. pick, up. prud. 

homal, homie, pi^g* pong, check, list. week. end,... 
8 soit de parties de locutions, conjonctions, prepositions, ou adverbes composes: parce, 

jusque, tandis. afin, aujourd. hui, ad, hoc. ipso, facto, catimini. cahin. caha.,.. 
u soit de prefixes servant k former des mots composes, tels que anti, cardio. hyper, sous..,, 
m soit de prefixes derives de noms propres, comme angla, iiato, siatino,... 
m soit de mots elides: c\ d\ j\ l\ m\ n\ s\ t\ qu. Jusqu\ lorsqu. puisqu, quoiqu, quelqu, 

presqu\ entr. Ces derniers sont mis sans apostrophe dans le DELAS, puisque le 

separateur est par definition exclu. 



D'un point de vue formel, tous ces elements sont des mots simples ordinaires, c'est 
pourquoi ils sont consignes dans la version actuelle du DELAS. Toutefois les prefixes ne sont pas 
recenses de fa^on exhaustive, du fait de leur presence dans une liste S part. 



2 J. 4. Mots de mfime graphic 

Dans les entrees du DELAS, aucune distinction n'est faite entre deux mots de sens 
differents, mais de meme orthographe et ayant des formes flechies identiques. Dans ce cas, un 
seul code morphologique est mis. Par exemple, le mot botte, qui a trois entrees differentes dans 
le PLL est note par Pentree simple: 

hotle,.N2I 

N21 etanl un nom feminin, prenant un s au pluriel, qu'il s'agisse d*une botte de foin, d'une botte 
d'escrime ou d*une botte ie caoutchouc. IX* meme, le verbe v(?h'r se conjugue de la m<}me fa^on 
quel que soit son sens, et ne donne lieu qu'S une entree: 

M)lcr,.V3 



dans laquelle V3 est le code morphologique des verbes reguliers du premier groupe. 



2.2. La classification grammaticale 

2.2.1. Classcmcnt scion (cs panics du discours 

Sur le plan grammatical, les mots sont repi^rtis en neuf categories, ou parties du discours 
{I,c Bon Usage, M. (irevisse). On distingue les noms, les adjectifs, les verbes, les adverbes, les 
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pronoms, les articles, les propositions, les conjonctions et les interjections. La classification selon 
les parties du discours etant traditionnellement utilisee, nous Tavons integree dans !e dictionnaire 
morphologique DELAS. 

Les codes grammaticaux sent les suivants: 

.A (adjectif), .N (nom), .V (verbe), .ADV (adverl^e), .CONC (cc^njonction de coordination), 
.CONS (conjonction de subordination), , PREP (preposition), JNTF (interjection), .DETE (determi- 
nant), .PRON (pronom), et .XINC (inclassable). 



2.2.2. Entrees a un code 

Les mots qui appartiennent a une categorie grammaticale unique et bien definie donnent 
lieu ik des entrees simples. 

Exemples: colloqucNl 
linguiste..N3I 
discursif„A3S 
cordialemeni ,.ADV 
fu,CONC 
dans, .PREP 



2.2.3. Entrees d plusieurs codes 

Les entrees du DELAS etant toutes de graphies differentes, il en resulte qu'une meme 
entree lexicale regroupe souvent plusieurs mots grammaticalement differents. En consequence, 
cette entree contient plusieurs codes associes. Par exemple, le mot si4r etant d'une part adjectif, 
d*autre part preposition, comporte deux codes: 

sur..A32.PRFP 



De telles entrees sont dites homographes. Nous considerons aussi comme homographes les 
noms humains, specialement les noms de profession, frequemment employes comme adjectifs, par 
exemple: 

houlanger. dans un apprcnti hoidanger 
assistant, dans un maitrc assistant 



Un double codage nom et adjectif (.N et .A) est alors necessaire pour ce type d'items: 

haul anger,. N42.A42 
assistant. .S'32.A32 



2.3. La codification morphologique 

Le systeme de codification morphologique du DELAS separe deux types de donnee: 

m d'une part les noms et adjectifs, 
■ d'autre part les verbes. 
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2,3.1, Codification des noms ei adjectifs 

En fran^ais, les variations de formes des mots ne portent que sur leur terminaison. Pcur 
les noms et les adjectifs, une suite de quatre terminaisons suffit ^ representer toutes les vaiiantes 
en genre et nombre. Par exemple la suite: 

/ /, ve. fs. ves J 

decrit les quatre formes flechies oisif, oisivc, oisifs. oisives^ de Padjectif oisif. Cette suite, appelee 
flexion, peut s'appliquer a tous les adjectifs terminus en //. Elle determine done une classe 
d'equivalence morphologique, ou classe flexionnelle, ^ laquelle se rattachent tous ces adjectifs. 

Pour coder la morphologie de tous les noms et adjectifs fran^ais, nous avons dresse la liste 
de toutes les classes flexionnelles existantes. Chaque classe est numerotee, le numero servant de 
reference pour coder les entrees du DELAS. Par exemple, la flexion mentionnee plus haut 
correspondant ^ la classe 38, on a dans le DELAS: 

tntemPL'Stif.,A38 
craiAtif.,N38.A38 

On voit sur cet exemple que les noms et les adjectifs sont rattach^s aux m^mes classes 
flexionnelles. Pour les noms de genre unique, nous avons maintenu la description generale des 
flexions avec quatre composantes. Simplement, le signe - a ete introduit pour designer des formes 
manQuaiites, ainsi: 

//. ux. ^} 

represente la flexion de la classe 4 regroupant des mots masculins tels que: 
cheval.,N4 canal. .S 4 

Au total, 80 classes flexionnelles ont ete repertoriees pour Tensemble des noms et adjectifs. 
La liste detaillee des flexions est donnee en annexe 1. EUe a ete organisee de fa^on a regrouper 
d'abord les mots exclusivement masculins (classes 0 a 19), p?»in les mots exclusivement feminins 
(classes 20 a 29), enfin les mots a double genre (claf:ses 30 a 80). 



2.3.2, Codification Jes vcrhcs 

Alot:; que le code morphologique des noms et adjectifs renvoie a une flexion, celui des 
verbes renvoie a une conjugaison-modele, identifiee par son numero. Par exemple, on trouve 
dans le DELAS rentree verbale: 

construire.jy I 

specifiant que cc verbe se conjugue comme le verbe-modele do numero 91: cuire. 

Deji au siecle dernier, une classification systematique avait ete elaboree par M. Bescherelle 
Aine pour decrire la conjugaison fran^aise. Depuis, plusieur** systcmes de classement des verbes 
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J"J,^it^''°P<'5es, certains bas^s sur les variations phonetiques des formes conjuguees Dans le 
ULLAS, seuls les entires orthographiques ont ete pris en compte pour etabllr les 96 coniugaisons- 
modeles auxquelles se refere le codage des verbes. 

Le DELAS etant simplement un dictionnaire morphologique, les caracteres syntaxiques de 
construction des verbes ne s'y trouvent pas. lis sont decrits ailleurs dans les tables syntaxiques du 
lexique-gramrmjre du LADL. Cependant, certains verbes presentent dans leur conjugaison des 
particulantes provenant de leur construction, qui necessitent I'emploi de marqueurs specifiques 
Ce sont les cas suivants: 

1) verbes ^ participe passe invariable, c'est-^-dire verbes intransitifs, qui ne peuveni pas 
se conjuguer avec Tauxiliaire ^tre. Alors le marqueur U e.st utilise pour signaler une forme 
unique pour le participe passe, par exemple: 

circuler.yUJ. 

2) verbes qui, pour diverses raisons, ne se conjuguent qu'i la troisieme personne Ainsi 
sont les verbes iits impersonnels pour lesquels le su>t est obligatoirement il. Ceux-ci sont codes 
avec fe marqueur I, comme: 

nei8er,.V5I (ilncige) 

3) verbes defectifs: la defectivite est un phenomene irregulier, different selon chaque 
verbe concerne. EUe est done indiquee par le marqueur general D specifiant I'existence de formes 
manquantes dans la coi jugaison. Ainsi est le verbe: 

frirc.V'WD 

Le marqueur D n'est pas accomragne de la liste des temps et personnes manquants Cos 
jntormations sok reportees dans un fichier externe. qui peut etre exploite par le programme de 
generation des formes verbales de faijon .1 eviter la production des formes inexistantes. 

3. STATISTIQUES SUR LE LEXIQIJE DELAS 

Le lexique DELAS est divise en 26 fichiers, oil les mots sont repartis en fonction de leur 
lettre jnmale, comme dans un dictionnaire classique, et tries alphabetiquement. Les statistiques 
sont evaluees dune paj: o, chaque fichier isole, d'autre part sur la totalite du lexique. 

Une page en annexe donne la repartition des mots, par lettre initiale et au total, dans 
chacune des categories grammaticales suivantes: adjectifs, noms, verbes, adverbe* I es autres 
categories de mots sont comptabilisees ensemble. Les totaux, apparaissant en bus de page 
montrent que la version du DELAS de 1988 comporte pres de 10 000 verbes 17 000 
adjectifs, 42 000 noms et 2800 adverbes. 



Le lexique DELAF 

niri Ac^^^^^ ^-^ I'ensemble exhaustif et ordonne de toules It-s formes flechies des mots du 
DELAb. Celles-ci sont construites a I'aide d'une procedure automatique de generation des formes 
Nous devons done considerer celle-ci, avant d'aborder la constitution des entrees du DEI AF 
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!• LA G^NtRATION DES FORMES FLfeCHIES 

Dans ie systeme de codage morphologique du DELAS, on distingue les noms et adjectifs 
d'une part, et les verbes d'autre part. La g^niration automatique des formes flechies se subdivise 
suivant ce principe en deux types de traitements: 

1) le premier engendrant les formes flechies des noms des adjectifs, 

2} le second servant ^ conjuguer les verbes, et a construire Tensemble des formes verbales. 



\A. G^n^ration des formes nomsnales et adjectlvales 

Sur le plan formeU les formes nominales et adjeciivales sont composees de deux elements: 

■ un radical independant du genre et du nombre, 

■ une terminaison T, variable en genre et en nombre. 



Nous avons deji vu que la terminaison T est un vecteur ^ quatre composantes, equivalant 
^ une flexion numerotee et formalisee comme suit: 

¥^ ^ (tms. tfs, tmp, tfp) 

oii n = numero de la flexation, 

tmi = terminaison du masculin singulier, 
tfs = terminaison du feminin singuHer, 
tmp » terminaison du masculin pluriel. 
tfp = terminaison du feminin plu^ 



Dans le picgramme de generation automatic mots flechis sont done calcules par une 

expression de la forme: 



oii R designe le radical commun ^ toutes les formes flechies d'un m^me mot. 

Suivant les cas, un nom ou un adjectif engendre de une S quatre formes flechies, comme 
le montrent les exemples ci-dessous: 



RT 



n 



b(Hs.,N2 
hall€..N2I 
pdle,.A3I 
pieux,.A63 



hois, ms mp 

balle. fs halles. fp 

pdlc. ms fs pdles, mp ^jp 

pieux, ms ^mp pieuse, fs pieuses, fp 

acteur. ms actrice. fs acteurs. mp actrices, fp 



acteur..N36 



G^n^ration des formes verbales 



Celle-ci est basee sur un programme de conjugaison ecrit au LADL, et exploitant les 96 
verbes- modeles utilises lors du codage morphologique des verbes du DELAS. Pour le programme, 
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deux fichiers auxiliaires sont necessaires: ie premier, dit fichier de terminaisons, contient la liste 
de toutes les termmaisons existantes k tous les temps de la conjugaison; le second, dit fichier de 
conjugaisons, contient: la description de la conjugaison des 96 verbes-modeles selectionnes Ces 

2f"!^rl Ac"A''^''"^-^"i"^,^" programme le calcul automatique des f-ormes conjuguees des verbes 
au utLAb, a partir de leur numero de code morphologique. 

Seuls les temps simples de la conjugaison donnent lieu d des formes conjuguees simples 
done seules ces derni^res sont prisec en consideration pour construire le dictionnaire DFI AF Un 
verbe regulier du premier groupe, par exemple invemer, donne lieu a 39 formes simples de 
graphies differentes, dont 

■6 formes impersonnelles: 

invent- [er. ant, es. ee. ecs]. 

■et 33 formes personnelles: 

invent- [e, es. ons, ez. entj = 5 formes 

invent -{ais, ait. ions. irz. aieni) ^ 5 formes 

invent- ferai. eras. era. erons. ere:, eronif = 6 formes 

invent- [erais. erait. erians, eriez. eraieni] ^ 5 formes 

invent- [ai. as. a. dmes, dtes, erentj = 6 formes 

invent- fasse, asses, dt. assions, assiez. assent ] = 6 formes 

Sur le plan theorique, les verbes sont conjugables k toutes les personnes de tous les modes- 
temps. Cependant, dans Pusage courant, un certain nombre de formes verbales sont rarement 
employees, comme celles de I'lmparfait du subjonctif. Malgre tout, ces formes existent, elles sont 
done engendrees par le programme de conjugaison automatique du LADL. LVnsemble des formes 
resultantes est un ensemble maximal. Le sous-ensemble des formes effectivement rencontrees 
dans les textes est fonction h la fois du style des ai teurs, et du domaine d'application 



2, LA CONSTITUTION DES ENTRIES DU D E L A F 

Une entree du DELAF est construite en deux parties: I) une forme canonique ou flechie 
Z) son identification en genre et nombre pour les formes nominales et adjectivnies ou son 
AVt^^^I?" ®" personne et nombre pour les formes verbales. Les en. gistrements 

du DELAF, obtenus mformatiquement, se presentent comme il apparait sur les exemples ci- 
dessous: 

table, .N21:Nfs 
tables.- 1. N21:Nms 
soigneux ,.A63:Ams:Amp 
soigneuse.~2x.A()3:A fs 
soigneuses.-3x.A63:A fp 
^randirais.-3. V IH.Cls.CIs 

dans lesquels: 

:Nfs et :Nfp specifient des formes nominales au feminin singulier et feminin pluriel, 

:Ams .-Amp :Afs :Afp designent des formes adjectivales. respectivement masculin sinculier 
masculin pluriel, feminin singulier, feminin pluriel, 
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:CJs :C2$ repr^sentent le conditionnel present, Ire et 2e personnes du singuHer. 

Les expressions pr6c6dees du signe - permettent de retrouver la forme canonique. Par 
exemple: soigneuses.-Sx signifie qu'en enlevant trois caracteres en fin de mot et en ajoutant x, on 
obtient le mot de base soigneux. 

Par rapport au nombre de mots simples contenus dans le DELAS, le nombre des formes 
engendr^es cf stockees dans le DELAF est multiplie au plus par: 

2 pour un nom de genre unique, 
4 pour un adjectif ou un nom 1 double genre, 
39 pour un verbe r^gulier du primier groupe. 



Ces proportions sent maximales, car beaucoup de noms et adjectif s sont in variables en 
genre et ne donnent que deux formes. N^anmoins le dictionnaire DELAF, engendre a partir de 
la version du DELAS de 64 000 entrees, contient de Tordre de 530 000 formes. Eu machine, le 
volume est pres de 10 fois plus important que celui du DELAS. Ce phenom^ne d'expansion est 
d*autant plus marqu6 que les entrees du DELAS sont factorisees, c'est-i-dire qu'elles peuvent 
contenir, en une entree unique, plusieurs mots de mSme graphic. Au contraire, les entrees du 
DELAF ne sont que partiellement factorisees. En effet, les formes identiques ne sont regroupees 
que si elles proviennent du m^me mot grammatical, (Test par exemple le cas des deux formes de 
Tadjectif soigneux au masculin singulier et pluriel. 

La difference de presentation tc de volume entre les deux dictionnaires DELAS et DELAF 
ne doit pas faire oublier leur unite et leur coherence. A la base, les informations sont essentielle- 
ment les mots du DELAS avec leur morphologie. Q v. toutes les formes soient deployees de fa?on 
exhaustive comme dans le DELAF, ou qu*elles soient impUcitement presences grace au code du 
DELAS, Tensemble formel represents reste toujours le mfime: celui des mots simples de notre 
langue. 



Le lexiquc DELAC 



Le Dictionnaire Electronique du LADL pour les mots composes (le DELAC) comporte ^ 
ce jour plus de 80 000 mots composes. Le DELAS et le DELAC sont des dictionnaires 
electroniques morphologiques. c'est-d-dire que leurs entrees sont associees d une categoric 
grammaticale et a un code flexionnel. Cette description permet en particulier de reconnaitre 
automatiquement les mots dans les textes. On peut ainsi reconnaitre que dans la phrase: 

Les pieds noirs wnt venues 



Toccurrence pieds noirs represente le nom compose pied noir (qui peut Stre feminin) au pluriel, 
sont represente la troisieme personne du pluriel du present de Tindicattf du verbe ^ire, et venues 
represente le participe passe feminin pluriel du verbe venir. 



Blandine Courtois recense les mots simples; Maurice Gross recense ies adjeclifs et advr:bes 
composes; Gaston Gross, Ren6 Jung, Michel Mathieu-Colas et Robert Vives recensent les noms 
composes Ce^ derniers constituent la majority des mots composes, et sont classes selon leur 
structure. Nous avons actuellement les classes suivantes: 
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-NA (Nom Adjectif): carte bleue, pie J noir, 

-NDN (Nom de Nom): pomme de terre. coup de force. 

-AN (Adjectif Nom): beau frere, hlanc-bec. 

-NN (Nom Nom): homme grenouille. chieri-loup. 

-NAN (Nom d. Nom): pelle a gdteau. tarte a la crcme. 

-VN (Verbe Nom): trompe Voeil, gratte- papier. 

-PN (Preposition Nom): en cas. arriere garde. 



II existe de nombreuses nutres classes de noms composes ({Michel Mathieu 1988]), mais qui 
representent nettement moins di loms compose.. Les classes NA et NDN sont les plus importantes 
en nombre. 



Classe Nomhre de mots 

NA 44 985i 

NDN 2(1 8W 

AN 1 324 

NN 2 376 

NAN 2 '^42 

PN 6(>4 

VN 1021 



Notre travail consiste k creer % partir de ces listes brutes le dictionnaire ^lectronique 
DEL AC, utilisable par des programmes de tranement automatique. II s'agit done d'attribuer des 
codes de flexion aux diff^rentes categories et d'introduire une classification morpho-syntaxique 
de ces termes. La difference entre ie DELAC et les listes donn6es par des lexicographes ne 
concerne pas uniquement la forme des donn6es; elle concerne la quiallt^ de I'ensemble des 
dannees, et se traduit par un ajout dMoformations. Cette qualite est difficilement mesurable, mais 
ce n'est pas pour cela qu'elle est facile & obtenir: 

■ plus de 10 % des entrees lexicales recensees par les lexicographes ne sont pas 
coherentes au sens formel, or les programmes ne peuvent traiter que les bases de donnees ne 
conlenant aucune erreur; il est done indispensable de reconnaitre les donnees generatrices de bruit. 

■ les informations donnees par les lexicographes concernant le nombre, le genre, la 
flexion en nombre et en genre des noms composes font souveni ddfaut, et ne sont pas toujours 
coherentes; or, pour Stre utilisable par des procedures d'analyse automatiques, le DELAC doit 
decrire sans aucune erreur le comportement flexionnel des noms composes; il est done indispensa- 
ble de detecter et de corriger les informations erronees, et d'ajouter les informations manquantes. 



Toutes les procedures presentees sont fondees sur un outil (automate no deterministe) qui 
pyermet de reconnaitre dans des textes ou dans des listes des sequences coniprenant des mots 
explicites, des formes lemmatisees, ou des parties du discours. 11 est possible par exemple de 
reconnaitre toules les lignes qui debulent par la sequence grand/, suivie par un nom feminin, 
suivi par la sequence :une. Cette sequence est entree ainsi: 

%grand/<N- f>:une 



Cette sequence reconnait par exemple les lignes: 

grand/ voile :une 
grand/rue:une 
grand /mere:une 
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<apercevoir> repr^sente toutes les formes du verbe apercevoir; la sequence f<V-ls> reconnait 
toutes les sequences de f suivi d'un verbe t la premiere personne du singuHer. etc. 

La construction d'un dictionnaire electronique t partir de Ustes brutes est une operation 
relativement complexe; ceci est dO k au moins trois raisons: 

■ le nombre d'entrees traitees est de I'ordre de plusieurs dizaines de milliers; ceci entraine 
que les traitements k effectuer sont longs et lourds; 

■ de nombreuses procedures doivent etre mises en oeuvre et 6tre reliees entre elles; le 
nombre de fichiers intermediaires generes est de I'ordre de plusieurs centaines; 

■ certaines procedures ne peuvent pas 5tre automatiques. 

Nous presentons en annexe Porganigramme des procedures effectuees. Les fichiers generes 
sont representes par des cercles. Les cercles numerates correspondent k des probl6mes discut6s 
dans ce rapport. Par exemple, le cercle numerot6 0 correspond ^ une liste brute. Les procedures 
sont representees par des rectangles, marques « A » (procedure automatique) ou « M » (procedure 
manuelle). Certaines procedures generent plusieurs fichiers. Par exemple, la verification 
orthographique d'un fichier de noms composes genere deux fichiers: le fichiet des noms composes 
sans faute d'orthographe d^tectee, et le fid ier des noms composes qui contiennent une faute 
supposee. Dans ce cas, un des fichiers resuhats est marque « O » (out: sans erreur). 

1. LE FORMAT DES LISTF.S 

Le format des Ustes de noms composes depend de la classe considiree. Nous 
le donnons ici: 



Classe Format 



Exemple 



NA <MD>/<MD>:<D> carte/hleue.-unr 

K,T.Kt < MD > y < MD > : < D > Pa^:S'/bas:les 

NDN < MD > /de// < M D > : < D > pomme/de//terTcune 

A K, ^ w5 ^ <MD>/<MD>:<D> accident/de/la/rvute.un 

AN <MD>/<MD>:<D> grand/pere:un 

<MD>-/<MD>:<D> basse- /cour.une 
<^^> <^^><^> Lfondymere.-une 
NN <MD>/<MD>:<D> homme/grenouUle:un 

<^;^>- <^'D>-<'0> abn-/bus:un 
NAN <MD>/a//<MD>:<D> w^nche/a//balai:un 

<MD>/^/<MD>/<MD>:<D> tarte/aAa/crtmc: 



une 



Kv^ < MD > /a/ < MD > : V D > sun./d/man^er.une 

DM <MD>-/<MD>:<D> garde-/man^r:un 

PN <MD>-/<MD>:<D> amere-/garde:unc 

Le synibole <MD> represente tous les mots .simples que Ton trouve dans it OELAF. Le symbole 
<f>> represente une sequence parmi les neuf suivantes: 

E. le. la. les, un, une, des. de le, de la 

E rerjresente le dcterniinant vide, que Ton met pour certains noms propres, par exemple: 
Era icois/ premier: E Le caracfcre « / » est un separateur de zones, utilise dans des programmes 
d'ixtraction et de tri. Toutes les entree.«; d'une classe determinee ont le meme nombre de zones, 
et done de separateurs « / ». Par exemple, le.s classes NDN et NAN ont quatre zones, les classes 
NA et AN ont deux zones, etc. Le caractcre « : » separe Tentiee lexicale des informations 
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associees. 11 y a un caractere « : » par entree, quelle que soil la classe de noms compost-- La 
seule information associde aux entries est le determinant choisi parmi les neuf sequences 
correspondant k <D>. 

Certains noms composes s'ecrivent avec un trait d'union; on place celui-ci avant le separateur de 
zones. Remarquons en particulier que tous les noms composes VN ou PN ont un trait d'union. 

Le premier traitement est un programme qui verifie le format des listes donnees. A partir 
de la liste « brute » (fichier 0 en annexe), ce programme d'acquisition des donnees engendre deux 
fichiers: la sous-liste des entrees bien form^es, et :a sous-listes des entrees rejetees. Cette dernierc 
peut representer plus de 5 % de la liste brute. Les entrees rejetees correspondent aux trois types; 

1) Les fautes de frappe concernant la ponctuation, comme par exemple un mauvais usage 
du caractere « / », un mauvais nombre de zones, etc.; les entries correspondantes peuvent 
representer plus de 2 % des entrees. Par exemple, sur une liste de 2 .376 NDN, il y a 61 fautes 
de ce type (2,5 %). La correction de ces fautes ne pose pas de probleme, mais elle necessite bien 
entendu un traitement specifique (detecter et corriger les fautes, puis fusionner la liste corrigce 
avec la liste globale). 

2) Les entrees dont le determinant n'est pas valide. On trouve parfoi 'article contracte 
:du au lieu de sa forme explicite :de le. :de les au lieu de :cies, ainsi que des fautes de frappe 
dans les determinants. Ces fautes touchent plus de 2 % des entrees (par exemple, 457/2C946 
NDN). De meme que pour les fautes de ponctuation, il faut detecter et corriger ces fautes, puis 
fusionner la liste corrigee avec la liste globale. 

Nous corrigeons les entrees qui possedent une ou plusieurs fautes de ponctuatu ou de 
determinant. 

3) Les mots composes dont la structure ne correspond pas au schema de definition (fichier 
1 dans Torganigramme). Par exemple, les entrees: 

abri/anli-atomique:un (NA) 
art / arabo-musulman:k' (NA) 
fum-proliferalion/nuclcaire.wu' (N A ) 
sous-marin/aiomiqutrun (N A ) 

sont de notre point de vue mal classees, car on y trouve des mots composes a Tinterieur d'nne 
zone; les entrees: 

hvrnard/Vermite:un (NN) 
bernard/rhermite:un (NN) 

de la liste NN ne sont pas coherentes vis-^-vis des definitions formclles a la base des traitements: 
ces entrees obeissent a la definition formelle Norn/ Dcterminam/ Norn, et non pas Nom/Nom. 
L'entree: 

traveller' 5 / cheque :utt ( NN ) 

pose le probleme general du traitement de Tapostrophe. Nous traitons toutes les sequences qui 
comportent une apostrophe, comme: 

uujourd'hui. entr'acte, entr'atder. grand'nuTc. f^rand'rue. Levi's. O'Connors, 
prud'homme. traveller's cheque, etc. 
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ces mots composes sont associes ^ une ciasse et ^ une procedure spccifiques. Les nom^ composes 
du type Adject if /Nom qui ont une apostrophe entre Tadjectif et le nom {grand^ui) sont d^crits 
dans la liste AN. 



4) Les mots composes dont une partie simple ne figure pns dans le uictionnaire DELAF. 
Ces mots concernent des fautes de frappe ou d*orthographe d*usage, des noms propres (Alexandre 
le grand, TAfrique equatoriale, etc.), et aussi des mots communs valides qui manquent dans le 
DELAF. Les entries de ce type peuvent representer jusqu'i 4 % de la liste brute. Par example, 
sur la liste de 21 573 noms composes NDN, 627 ont ixt rejetes lors de la verification orthographi- 
que (2,9 %). Afin de r^cup^rer les noms propres, nous extrayons de la liste des 627 mots rejetes 
les mots rejetes en majuscule. On obtient alo/s deux listes; 



a) la liste de mots composes qui comportent un mot en majuscule non trouves dans le 
dictionnaire (fichier 2 dans Torganigramme): TEurope occidcniQle. 

b) la liste des mots composes qui comportent un mot en minuscule non trouves dans le 
dictionnaire DELAS (fichier 3 dans Torganigramme): 



Les premiers mots sont pour la plupart des noms propres, mais certains peuvent ^tre 
errones {VArchipel des Galapos)\ les seconds sont soit des mots fautifs, soit des mots valides qu*il 
faudra ajouter dans le dictionnaire des mots simples. 



2. LA STRUCTURE DES ENTREES 



La simple verification de Torthographe et du format des entrees ne suffit pas. i.es listes 
doivent aussi ^tre coherentes du point de vue de la structure de leurs entrees: 



ar/{ie'/parabutoxyph6nyI.'iic^thydroxamique.7/^ le 



Ciasse Format 



Exemple 



NDN 



NA 



<N>/de/<DFT>/<N>:<D> 



<N>/<A>;<D> 
<N> /<A>:<D> 
<N>/<V-ant>:<D> 




cane/bleue.imc 
Pays'/bas 

agent /neutralLsani.'im 
cerf-/voiafU:un 
crime /organist :le 
€oU'/nu:urt 
pomme/de//terre:une 
ac cideni/de/la/routc'un 



AN 



NN 



<A>/<N>:<D> 
<A>-/<N>;<D> 
<A>7<N>:<D> 
<N>/ <N>:^D-> 





ah'^ /hus:un 



NaV 

VN 

PN 



NAN 



<N>/V<DFT>/<N>:<D> 
<N>/^/<V>:<D> 
< V>7<N>:<D> 
<PREP>-/<N>:<D> 




gcirde'/mangerun 
arn^re- /garde :une 



Si 
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avec: 
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<A> repr^sente un adjectif {Neuc), 
<DET> represente un determinant {la), 
<N> represente un nom {carte), 
<'PREP> represente une preposition {arrierc), 
<V> represente un verbe {manf^er), 

<'V~ant> represente un verbe au participe present {volant) 
<V-pp> represente un verbe au participe passe {vole), 

Remarque 

Nous avons place les noms composes des types: 
<N>/( <A>-t<Vant>-i^<V-pp> ) 

dans la liste Na. De fa^on analogue, on pourrait ranger les noms composes: 
( <A>+<r\'-ani>i-<\'~pp> )/<N> 

iTlnt>T<N>- Ies's"euuTnm;'f d'importance car nous n'avons pas de nom compose 

<y ant>/<N>. Les seuls noms composes pouvant etre consideres comme <V-pp>/<N> sont: 

Sucre /Coeur:l(' 
Sacre/CoUige.li' 

car sac:c est decrit dans le DELAS comme adjectif et aussi comme participe passe. 

.v.fAm.^Hf ^P^y^'^'^P consequence du fait que le dictionnaire DELAC fait partie du 

Fn pTrticuIief T/r.'nr'f '"'T^"'' ^" ^"^^^ ^^'^ '''' ^^"^^^^"^ niveau morpho^ogfque 
tn particuher, <A> represenie les mots codes comme adjectifs dans le DELAS. 

Nous effectuons done une deuxieme passe de verification, cette fois plus precise ce aui 
permet de rejeter des noms composes qui correspondent soit a une faute d ns le DH AS soit 
une faute de classement du nom compose (fichier 4 dans Porganigramir -) Par exemni; nou 
avons trouve dans une liste NA les entrees suivantes: s amii. j. f-ar exemple, nous 

argot/ polytechnic ii'ti: If 
cellule /iueuse:une 
champioime/ amaicur :une 
heaujolais/ primeur:de le 
previsions/ mcleo:de.s 

co"^POses sont mal classes par rapport au dictionnaire DELAS, dans leque! les mots 

chaZt^JnV' T''- """T'"'- ''T'"' ^^"^ exclusivem^nt comme des nom 

champumne/ amateur .une devra probablement etre classe comme NN; par contre tueuse et meten 

fZl^tVr^?^^ ^^^f'^.^^V ^^ock^lne version du DELAS. %e mem^, n^t ^'^^i • 
ligura. dans le DELAS {version 4) comme participe passe du verbe hlinJer, mais non comme 
nom. Le nom compose NA blinde/lcger:u. avait alors ete rejete a tort. 
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3. LE DETERMINANT ET LA DESCRIPTION FLEXIONNELLE 

Pour chaque entree, les lexicographes choisissent un determinant parmi les neuf: 
E, le, la. les, un. une. des. de le. de la 



Le determinant « zero » (E) n'a ete utilise jusqu'^ prtsent que dans deux NA; le determinant un 
est de loin le plus frequent. 



Determinant 


AN 


NDN 


VN 


PN 


NAN 


NA 


un 


446 


10 278 


984 


319 


1233 


15 996 


une 


229 


7096 


21 


250 


860 


16 011 


le 


262 


1038 


5 


16 


73 


3 764 


la 


208 


862 


1 


11 


162 


4 986 


de le 


32 


549 


8 


5 


52 


1 156 


de la 


12 


442 






53 


457 


les 


112 


222 






15 


2 

1 254 


des 


23 


412 


2 


3 


94 


1359 


TOTAL 


1 324 


20899 


1021 


604 


2 542 


44 985 



Du point de vue du nombre et du genre des noms composes, le determinant a plusieurs fonctions 
qu*il est important de preciser: 



3 J. Le nombre 

Le determinant decrit le nombre du nom compose: 

m £, le, la, un, une, de U , et de la representent un nom compose sirruHer, 

■ les et des representent un nom compose plurieU 

De plus, il represente la flexion singulier->pluriel; 

■ un et WW designent un nom compose qui accef. '^riel, 

■ E. le. la. de le. de la, des et les designent des noms compc ijvariables en nombre. 

Le nombre des noms composes n'est pas toujours facile H determiner. Par exempJe, pourquoi le 
nom compose: 

fous/de/ /Dieu:les (NDN) 

a-t-il ete entre au pluriel (determinant les), et non pas au singulier fou/de/ /di^u:un? Le 
determinant les signifie-t-il que les phrases: 

Luc est un fou de dieu. 

Un fou de dieu s'esi suicide hier par le feu. 
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sont Inacceptables en franfais? 

Parfois, cest a dessein qu*on a d6doubl6 les entrees. Par exemple: P'unc" 
■ tt/i a/i/e social est un homme: 

L'fl/fjff social viendra visiter la maison demain. 

m une aide sociale est soit une femme (feminin de un aide social), soit une contribution: 

L'aide sociale viendra visiter la maison demain. 
Luc regoil une aide sociale de 1 OOo F par mois. 

^venuJ^Jtif^'v^' designer soit le pluriel du nom ambigu une aide sociale, soit 

eventuellement Porganisme, comme dans la phrase: 

Luc envoie sa fiche de paie aux aides sociales. 

If fesulte d'un manque de verification. Certaines listes ont ete 

construites independamment par plusieurs lexicographes. II n'y a pas moyen de savoir si les 
Jif^^^^T^""^.''''^ sont significatifs ou non, puisque ies Lms comp^Ls n°ont pa 
d .nformation de type distnbut.onnelle ou semantique associee (comme par exemple, humaln ou 
noil iiiiiiiftlfi). 

A. .^^y}^ variabilite des iiLms composes ne peul pas etre decrite dans une lisle independamment 
?4emnf de rr'^^rS","- " "^"^ P»"=^^ Nous reprenon 

ZTJ:S.ZX:xrZlT°'' ./-.^*<-/.//v«,7. (NAN, pe„> ou non se mere au 

Luc consiruit une planche a voile. 

conlre^^daTla'p^rase; ^'"''"^ ^^ "^ ^ 

Luc fait de la planche a voile. 

il ne peut pas etre mis au plurie!. II faudra done etudier pour chaque nom la possibilite qu'il y 
fnnnnr/^'?^ '"^^^'^ ^"^.f'^ ^^^'^ ^^^^'^'^^ « '■^'^^)' '^^ coHtraintes dues au verbe 

attache aux noms composes est approximatif. 

nPi ArT!^%!^^^^^^'^ d'un nom est une notion purement lexicale, il est indispens-ible que le 
LitLAL et le DELAS soient coherents sur le plan strictement morphologioue. Nous avons done 
irJ^n 'T^"'/^ (^^^;^,in.nt e^t singuiier (£. un, le, de le. une. la^de la), le nom compost 
est constitue de mot- smguhers (procedure analogue avec le pluriel). 

Cette proc6du.-» n^-, a permis de trouver la seule erreur: coupe /somhres:des (fichier 7) 
n^ric'tr^''^"^ ^ IT ^-^.^^Pi.^^" seule erreur (sur plusieurs dizaines de milliers d'entrees.') 

n6cessite une procedure specif. que relativement coOteuse: on doit veriHer le nombre de chaque 
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mot dans le dictionnaire. Nous n'avons pas trouv^ de cas exceptionnel, c*est-i-dire de nom 
compose dont le nombre ne correspondrait pas & celui de ses constituants (comme une deux 
chevaux). 



3.2. Le genre 

D*une part, le determinant ne decrit pas le genre des noms composes dans les trois cas 
suivants: 

■ £ est masculin ou feminin: 

Action/ directe.'E (NA), Francois/ premier :E (NA), 

■ un designe un nom compose masculin, qui peut avoir ou non le double genre: 

chef /de/ service :un (NDN) (double genre) 

chef /de/ /inculpation :un (NDN) (masculin uniquement) 

■ les et des designent un nom compose masculin ou feminin: 

hains/ douche: des (NN) 
avQrieS'/frais:des (NN) 

D*autre part, le determinant ne decrit pas toujours la flexion masculin->feminin: 

■ un designe un nom masculin variable ou non en genre: 

appui/ politique :un (NA), cousin / gcrmain:un (NA) 

■ ley et des, quand ils s'appliquent ^ des noms masculins, peuvent designer des noms 
variables ou non en genre. 

Pour les noms associes aux determinants un, de le et le d'une part, une. de et la d'autre 
part, nous avons verifie que le genre des parties simples du nom compost corresp()iid bien ^ celui 
du determinant. Bien sQr, nous avons trouve des erreurs (27 erreurs pour lef NA, 36 pour les 
NDN, 2 pour les AN), mais aussi des cas exceptionntls, comme: 

grosst/ legume :une (AN) 
peau/rouge:un (NA) 

Nous avons vu que le determinant ne dtcrit pas toujours le genre et le comportement 
flexionnel en genre Jes noms composes. Nous devons done retablir le genre des noms compos>^^ 
pluriel, et decrire la fU*xion en genre des noms composes en un, les ou en des. 



4. LE GENRE DES NOMS COMPOSES PLURIEL 

Nous traitons la U^^e ues noms composes au plu-iel (liste 12 en annexe). Nous distinguons 
les classes NA, AN, NDN, NAN, et NdV d'une parf, des classes VN, et PN d'autre part. Pour 
les premiers, il est possible d'utiliser le genre d'une partie simple « caract^ristique » dn nom 
compose afin de determiner le genre du nom compose: 
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Classe Caracf^ristique 

AN Act N 

NA N et A 

NDN le premier N 

NAN le premier N 

N4V N 



ammauX'/ machines :des 
a varies - / frais : des 

public-/ relations :des 



7vT^TTLTJmV^J1^'''" "rP°=*.P"-" «<« "'-i premier nom (ani^aux- /machine. 
4.1. i NDN pSarlel 

deux ficMers:"' " obliga.oiremen, au pluriel, on genere 

fe,n,nin"(27| n^Jjl^oiliS'^.f Le^.e:"'"'"'*' """"" ""liga.oiremen, 

.tre aus" au l^n^^^^f"^^^;::^:'' ^^^"^^^^ "^"^ 

^^"^ classification utilise le programme en-a qui compare la contrainte %<N-m> Hes 

^ ' l^"iir/r'];r^"'-V-^'[ "^^'"""^ ^'8"^^ 'i^te des noms composes au 

.el. AUTRES venf,e la contrainte, FEMfNfN non. La commandc utilisee est: ''""'P'^'"' ^" 

f,t/rfl PLURIEL % <rN-nj> AUTRES FEMININ 

sVpaZTenTtilTantVr^^^^^^^ ^T"^ '^'^ ^"^^ •'"^ "^^^^"^'"^ Nous les 

separons en utilisant la m^me procedure, cette fois a.ec la contrainte %<N-f>: 

extra AUTRES %<N-f> MANUEL MASCULW 
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qui gen^re le fichier MANUEL des 46 noms composes dont le premier nom est soit ^ double 
genre, par exemple: 

enfants/de/les/ecoles:lcs 



soit ambigu, par exemple: 

manoeuvres /de/ /abordage:des 



et le fichier MASCULIN des noms composes dont !e premiei nom est exclusivement mascuHn (341 
noms composes), par exemple: 

barons/ de /la/presse:les 
cheveux/de//ange:des 



Le genre f^minin est automatiquement mis pour les 272 noms du fichier FEMININ; le genre 
masculin est automatiquement mis pour les 341 noms du fichier MASCUUN; le genre des 46 
noms du fichier MANUEL est mis « i la main ». Apr^s avoir introduit le genre dans ces trois 
fichiers, nous fusionnons la liste des noms au singulier enrichie automatiquement du genre, av-c 
les trois fichiers FEMININ. MASCULIN et MANUEL. 



4.2* Les NA plurlel 



Gil utilise cettc fois le genre du nom et de Tadjectif. Le nom presente trois possibilites: 
soit masculin (m). soit feminin (f), soit les deux (mf); Tadjectif aussi; nous avons done les neuf 
possibilites suivauies: 



Nom Ailjectif Exeriiple 

m m abonnh/absentrJes 

m f ? 

m mf acciderUs/dnmextiqi:es;lcs 

f tr ? 

f f Qcnvitis/cultureUes.'des 

f mf arthiv€s/judiciaires:des 

mi m A nistes/Associh:lcs 

mf f manches/courtes:des 

mf mf livres/tiLstoriquesiles 



II nous faut se, jrer les entrees de fa?on i avoir les Hstes: 

■ noms composes feminins: f-f, f-mf, mf-f 

e noms composes mascuHns: m-m, m-mf, mf-m 

■ noms ambigus (q"^ rcn dcvra iraiter manuellement): mf-mf 
B erreurs que Ton doit rejeter, ou cac evceptionn^^ls: m-f, f-m, 

Comme on le voit en annexe, les programmes extra g^nerent les 7 fichiers suivants: 
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F'chier 


Nombrc 


Type 


13 


59 


mf-mf 


14 


54 


mf-m 


15 


34 


mf-f 


16 


1010 


ro-nvm-mf 


17 


2 


m-f 


18 


1439 


f-mf.f-f 


19 


4 


f-m 



Exemple 

livres/hi$toriques:les 
Artistes/ Associ6s:Ies 
manches/cou nes :de s 
ahonn^s/absentsrles 
Indes/accidentales;les 
archives/jijdiciaires:des 
Bouffes/parisiens : les 



^Lrt ^ Z 5°'"^°'^^ composes pour lesquels il n'est pas possible de determiner le 

ffohWc f ?r composants, les fschiers 14 et 16 comportent des noms composes masculins ies 
fichiers 15 et 18 comportent des noms comr oses feminins; les fichiers 17 et 19 sonf 



Liste 17; 

Iidcs/orientales.les 
lndcs/occidentales:les 



\lu\^n^ii'^en\^^^ '^"^^ le DELAS comme an nom masculin (nom de couleur, 

qui sign.fie bleu mdigo). Nous n'avons actuellement pas de dictionnaire de noms proores et nou^ 

DErArtrremorp-r..''V°"^ ^^^^^^^ homographes avec uTmot Sm' n du 

^, • . exemple Pierre). Nous ne pouvons pas nous fier exclusivement en la presence d'une 

majuscule pour reconnaitre Ies noms propres, car il exists de nombreux noms propres composes 
dont une ou plasieurs parties simples sont ecrites en majuscules, sans pour au^nt atre eLs-S" 
fath^tZe'^T""'- ^ ' Carte I^L /sTcou 



Liste 19: 

B ouffcs/ pari si en s :les 
glyc^rides /paniels : Ics 
I ang ues/altaiqucs : (es 
let(res/royaux:les 



Bouffes peut 6tre un nom propre masculin (meine phenomene qu'avec I^^Je) elvcerides- 

pas emr6 comme ..om masculin. aliarques ete entre dans le DELAS version 4 comme n^ayulin 
exclusivement, ce qu, doit etre corrige. I 'entree leUrcs/royaux:lcs est une faute 



5. LE GENRE DES NOMS COMPOSES DE DETERMINANT UN 

Doint .l^tl^H';^^'.nT°'M ^" j?"?"^'^^ ^^t rminam im doivent etre aussi etudies du 

point de vue du genre. Nous distmguons trois types de noms composes en un: 

I) les noms qui ne peuvent dtre qu'uniqi'cment masculins a cause de leurs composan^s- 

1 f^^'Ifct/Vo'" ^^"^ ^^'^ P"*'''"^ "'^ pas de feminin. Cette liste correspond 

a la iLsie zu en annexe, 

nh S'^'^!^ description est limitee par le fait que notre outil est purement morphologique: dans 
la ph.a£ une pied noir est venue, le nom compose est feminin, meme si pied n'a pas de feminin. 
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Cetie possibility n^est pas decrite dans la liste NA, ou n*apparait que Tentree pied/noir:un. Ce 
ph6nomfene doit 6tre 6tudie g^neralement pour tous les noms humains; T^tude a ete entreprise pour 
les NA par Gui :on 1988. 

2) les noms a double genre: enfant pauvre peut Hre masculin ou f^minin, puisque enfant 
et pauvre ont le double genre; 

3) les noms qui ont une flexion en genre: cousin germain donne co, ine germaine. 

Afin de detecter les noms composes du deuxieme type, nous extrayons de la liste des noms 
associ^s au determinant :un les noms composes dont le nom et Tadjectif peuvent 6tre aussi 
fdminins. Par exemple, pour les NA, nous appelons la commande: 

extra ncMn %<N-f>/(<A-f> 4- <V-ppf>) DOUBLE MASCULIN 



NA 


NDN 


AN 


NAN 


15 996 


10 278 


446 


1233 


774 


4 


56 


56 


160 


456 


2 


7 



un 

DOUBLE 
double genre 

Le fichier DOUBLE (21 en annexe) contient des nonis composes dont le nom (pour les NDN, 
NAN), ou le nom et Tadjeciif (pour les NA et AN) sont k double genre. Nous etudions 
syst6matiquement les noms de ce fichier, et d^doublons les noms composes & « vrai » double 
genre. Cc n*est pas parce qu*un nom compost a structurellement le double genre qu'il Ta 
globalement. Consid^rons les entries: 

sale/tour:un (AN) 

enfant /de/ la/ Assistance :iin (NDN) 

sale/tour est obligatoirement au masculin; il est dans la liste DOUBLE parce que sale est un 
adject if masculin ou f6minin, et tour est ambigu {une tour ou un tour). Par contre, enfant de 
VAssistance est rang6 dans la liste 23, puis est dedoubl6. 

Cette procedure ne peut pas 6tre automatique, mfime si les noms simples sont marques humain ou 
non humala: par exemple, seule une connaissance des noms composes suivauts permet de savoir 
si Ton a affaire un nom humain k double g^ire: 

agent /de/ /conservation (NDN) 
agent /de//maitrise (NDN) 
chef /de/ /inculpation (NDN) 
chef /de// cabinet (NDN) 

Les listes de noms composes des classes NDN et NAN dont le determinant est un sont 
traitees de fa^on analogue: 

extra nan.un %<N-f> double masc 

En utilisant ces proceuures, nous avons pu ajouter des noms composes f^minins 
« caches ». Afin de trouver les noms composes du troisidme type, nous devrons utiliser le code 
flexionnel du nom et de Tadjectif du DELAS, Les noms et adjectifs qui ont un feminin ont un 
code morphologique superieur ^ 30. 
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6. LES VARIATIONS GRAPHIQUES 

L'orthographe des mots compos, <^ est loin d'etre definie ([Mathieu-Colas 19881) I es nom^ 
composes acceptent des variations orthographiques: ^ 

appuie-main (VN) appui-main (NN) 

I'usage du trait d'union est souvent fluctuant: 
moyen d^e (AN) moyen-dge (AN) 

I'usage des lettres majuscules aussi: 
Moyen Age (AN) 

« I- Lorsqu'un nom compost accepte plusieurs graphies, nous le dedoublons Ce dedouhlem^nt 
Lf,hr'?^?'^^^.^^ '"^""^ -^^ "'^'"^ ^"t^^-e <^omme des entries iSnda^^^^^ 

?/.1>n'JfJ''^^^'^"°^y"*'^''^^'" ^"'^"^^^ . ecessitera Tutilisation d'un o^til de de 
P?L sTn^ml^^^^^ relationnelles du type .OB2/SQL) et pourra donner iL' lef^t "des 

voyage presidentiel (NA) = voyage du president (NDN) 



7. LA MAINTENANCE DU D E L A C 

d^^Rn nn^J^ composes sont en cours de construction. EHes representent neanmoins 
7^0 A f,J^f^O noms composes, ce qu, est un nombre important pour le mini-ordinateur VAX- 

An nAM'' traitement comme I'extraction selon la categorie grammaticale de mots 

parm, 20 000 noms composes represente plus de 4 heures de traitement en mono ut isateur O 
a chaque ajout de nom compost, toutes les procedures decrites doivent atrrappliquies I ' n^si 
done pas question de r^effectuer ces procedures pour I'ensemble des nomrd'une classed chaque 
d ^d'ngtnlXnroart'ier.'r?' ""^ ^^^"'^"^^ maintenance" dLflaqueUe'nou 

fnrrrcret^rmo'dlL^^^^^^^^ -ts 

Les lexicographes disposent de la liste generale des noms dej^ recenses sur supDort naoier 

di/ortti%r" '"' ^'T'' r ' "^^^ S^"^^^'^' ^^"^^"^ mots ^a outer sur 
disquette PC; U-rsqu'ils veulent suppnmer ou corriger un mot, ils annotent la liste sur papier 

.T^''^"; ^^nnf^de la disquette d'ajout sur le miii-ordinateur, et nous effect uons 
toutes !es procedures .e verification, de classement et d'rjout d'information sur la liste d'a outs 

deTZpreslnf rdrmod'f-' ?>^°"^ '''' ''''' -"^^^^ lison ' la^ Hste 

des suppressions et des modifications en parcouram « manuellement » la liste generale sous 
editeur, et nous y entrons les modifications au fur et A mesure. S^neraie sous 

CONCLUSION 

Nous avons presente ici deux dictionnaires electroniques, le DELAS et le DELAC Nous 

en?rTfnT nvft^.n" ^^^^^^^'^^ J^^ 8^^^^ "O^t^re important de donn^es parfaitement coherentes 
entraine d eff ectuer des procedures nombreuses, ce qui n'est pa, necessaire pour les dictionnaires 
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classiques. Ces prcK^dures coOteuses en temps et en place m6moire n*ont pas un effet toujours 
perceptible pour le lexicographe qui fournit la liste brute; n^anmoins, elles sont indispensables, et 
constituent le probl6me principal de la construction d*un dictionnaire 61ectronique. 

Nous avons vu que les probI6mes souleves ne sont pas tous solubles automatiquement: 
plusieurs procedures ne peuvent 6tre que manuelles, ce qui exclut Tobjectif « z6ro erreur Nous 
avons tout fait pour que ces procedures s*appliquent A des Hstes les plus petites possibles. 

Le point de vue purement morphologique a comme consequence de ne decrire qu*une seule 
fois des entrees syntaxiquement dedoubiees (comme les deux verbes voler) dans le DELAS. Par 
ailleurs, les procedures utilisees pour verifier les listes de noms composes sont fondees sur 
Tutilisation des informations du DELAS, ce qui presente certains inconvenients (comme par 
exemple la description du feminin du nom pied noir). Ces problemes seront resolus brsque les 
entrees du DELAS et du DELAC seront associees ^ des proprietes syntaxiques. 
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Repartition des classes flerionnelles des noms/adjectifs 



1 

^ Groupe 


Noms/adjectifs 


Num^ros 
des classes 


Relations ^'otre 
les forn 


I 


ma&culins 


0^19 


fis=fip=0 


n 


f^minins 


20^29 


iM^mp '0 


m 


masc.et {im. 
plur.en 's* 


50459 


mp=ms4^ V 
fp«{s + V 


!V 


mascet f6m. 
masc.invar. 


60*69 


fc = fp4V 
mp^^ms 


V 


flexions 
r6&iduelles 


70 4 80 




m&=^mascuHn singuUer, mp = masculin plurieJ, 
fs = f6minin singinier, fp^^t^minin pluriel. 



93 



Blandine Courtois et Max Silberztcin 

Annexe 2 



Groupe 1 : Classes flexionnclles des 
noms el adjectifs exclusivement ma.sculins. 


de classe 


P*i ^ V t r»f ■ 
A Ik. AK^i ■ 

ms,fs,mp,fp 


E^xcrnpics oe mots 
du diciionnaire DELAS 


0 
1 


• .. • - 

...s.- 


ociLNOS yeux..NOP 
moi,.Nl violat,,Al 


2 

3 


♦f t»1 


bui$,.N2 ars6nieux.,A2 


4 

5 




journal, .N4 ci€l,.N4 
corail,.N5 


6 
7 


us.-,ir 


orgue,,N6 
naevus,,N7 


8 
9 


homme,-,5hommes,- 


quantum, .N8 
bonhomme,,N9 


10 
11 




recordman,.NlO 
lobby.Nl 


12 
13 


.%es," 


box,.Nl 
tempo, .N 1 


14 
15 




kihboutz,.Nl4 
sefardi\.N 15 


16 




nuraghe..NI6 


' classe avec renvoi singulicr-pluric! 

- forme^ qui n'existentpas 

. lerminaison non sp^cifiaue 

S = singuiier seulement, P = pluriei seulement 
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Annexe 3 



Groupe 11 : Classes flexionnetles iies 
noms et adjectifs cxclusivcmenl fdrniains. 


Num^ro 
de classe 


Flexion 
ms,fvnip,fp 


Excmples dc muis 
du diclionnairr D(:lj\S 


20 
21 


_ « ^ • 


madaiiie,.N2US 
mesdames^.NUP 
maison,.N2l 
6pini6fC,.A21 


23 




croix,.N22 

caudincs»,A22P 

eau,.N23 


24 
25 


-,man,-,men 


lady,.N24 

recofdwoman,.N25 


* classe avcc renvoi singulicr-pluticl 

- formes qui n*existent pas 

. terminaison non sp^cifique 

S = singulier seulemcnt,? = plunel sculemot 
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Annexe 4 



Groupe HI : Classes flcxionnelles dcs noms et 
adjectifs dts deiw genres, avec pturiels en V, 


Num^ro 
de cliLsse 


Flexion 
ms.fs.mp.fp 


Exemples de mots 

du diclionnatrc nt:I.AS 


30 


,s,s 


empereur,.N3UM 
imp^ratricc,.N30P 
apte,,A3I artiste,. N31 


32 


.,e^es 


teiu,.A32 veinard„N32 
andaIou,.N32.A32 


34 


.,lc,us,tes 
eur,euse»eurs,euses 


favori,,N34,A34 
ragcur,.A35 voleur».N35 


36 

/ 


eur,rice,eurs, rices 
cur,eresse,eufs,eresses 


ambassadeur,,N3o 
vengeur,.N37.A37 


38 


f,ve»fs,ves 
.,ssc,s,sses 


oisif,.A38 vcuf,.N38 
traUre.,N39 


40 
41 


Ulejsjles 
n.nne^ns, fines 


cruel,. N40.A40 
bon,,A41 cit()ycn,.N4I 


42 
43 


er,^fe,ers,^ri:s 

f*t Ate ^f^tt: 


i(^gcr„A42 ouvrit:r,.N42 
diScret,.A43 prtrfet,.N43 


44 
45 

M — 


ef,6ve,efs,^ves 
ct,ck:nc ecs,ccnes 


brcf,.A44 
sec,,A45 


46 
47 


c,que,cs,ques 


lak,.N46.A46 


48 
, 49 


c,chesse,cs,chesscs 


diic,.N48 
oblong,.A49 


50 
51 


.,sque,s,squts 
gu,gue,gus,gucs 




^2 
53 


n.gne,ns,gnes 
ou,olIc,ous,oiies 


maIin,.N52.A52 
fc>ufou,.N53 


54 
55 


er,euse,ers,euscs 
.,inc,s,ines 


streaker,. N54 
feuif)ant,.N^S.A55 


56 
57 


.»essc,s,i'sses 
o,a.cs,as 


clown,. N^h 
aficiunadu,.N57 


58 


dic^tesscdtcs.etcsscs 
ec,equc,ecs,eqijes 


pu^ie, N58 
grec.NSy.Af^M 


' clasK- avec renvoi masculin M — > fcmiiiiii F 
. tcrminai^ofi mm spfcifiquc 
- — — _. , ^ 
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Groupe IV : CI: sses flexionnelles des noms et 
adjectifs des de jx genres, avec masculin invariable. 


Num^ro 
de classe 


Flexion 
ms,fs,mp,fp 


Excmples de mots 

du dictionnaire DELAS 


60 
61 


> » » * 


tiers».A60M 
tierce,.A60F 
niais,.N61 obtus,.A61 


62 
63 


x,se,x,ses 


m^iis,.N62.A62 
€pais,A62 
jaloiix,.N63A63 
f:^meux.A63 


64 
65 


x»&&e,iix.sses 
x^ce^ces 


faiD{,.A64 
doux,.A65 


66 
67 


ux/iMIIe,ux,iIles 
6s,esse,6s,esses 


vieux„N66A66 

profts,,N67 

expr^s,A67 


* classe avec renvoi masculin M — > f^minin F 
, terminaison non sp6cificue 
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Annexe 6 



Groupe V : 
adjectifs des 


Classes flexionnelles des noms ei 
deux genres, groupe residue!. 


Num^ro 
de classe 


Flexion 
ms,fs,mp,fp 


Excmples de tnoi^ 

du dictionnaire DLl^S 


^0 

71 


Ue,x,les 


hebreu„A70M 

h6braique,.A70F 

aVeuI,.fv7l 


72 
73 


au.UcauxJles 
au/IJie,aux,lles 


agneau,.N72 
b€au,^73 


74 
75 


l,le,s,ies 


tout,.A75 


76 
77 


al,alc,aux,ale5 


provincial,.N76.A7(> 
l^gal,.A76 
gSieau,.A77 (adj.) 


78 
79 


um,a,a,a 
us,a,a,a 


inaximum„A78 
valgus,.A79 


* classe avec renvoi masculin M > f^minin F 
. terminaison non sp6cifique 




Groupe VI : ( 
adjectifj 


riasse flexionnelle des noms et 
s invariables aux deux genres. 


Nuni^ro 
de classe 


Flexion 
nis,fs,mp»fp 


Exemples de mots 

du dictionnaire DLi^S 


80 


•»•»••• 


sabIe,.A80 (couleur) 
quatorzc.ASOP 



. terminaison non sp^cifique 
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Verbes - modules 



fies classes de conjugalsons 



Classc Verbe 



Classe Verbe 



Classe Verbe 







Num^ro 


modele 


Numero 


module 


1 
{ 


avoir 


40 


asseoir 


80 


faire 




^irc 


41 


devoir 


81 


traire 






42 


mouvoir 


82 


plaire 


3 


aimer 


43 


pourvoir 


83 


Doire 


A 


placer 


A 4 

44 


pcuvoir 


84 


croire 


c 


manger 


A C 

45 


pr^voir 


85 


enclore 


6 


pcser 


46 


recevoir 


86 


conclure 


/ 


c^der 


A'J 

47 


savoir 


87 


inclure 


Q 


jeter 


45 


surseoir 


S8 


taire 


0 


appcier 


4y 


valoir 






10 




50 


voir 


89 


suffire 


« i 

}| 


depecer 


51 


vouloir 


90 


confire 


iZ 


rapj^cer 


53 


d^choir 


91 


cuire 






55 


falloir 


92 


^crire 


13 


broyer 


56 


pleuvoir 


93 


dire 


14 


payer 


57 


seoir 


94 


lire 


1 < 
Ij 


cnvoycr 


CO 

3S 


pr^valoir 


95 


rire 


ID 


aller 


<Q 

jty 


promouvoir 


96 


maudire 


18 








97 


nuire 


finir 


60 


vaincrc 


98 


circoncire 


19 


hair 


61 


absoudre 










62 


coudre 






20 


acqufrir 


63 


nioudre 




Codes-Ieitrcs 


21 


assaillir 


64 


peindre 




addiUonnets 


22 


bouillir 


65 


r^soudrf 






23 


couvrir 


66 


prendre 




I = verbe 


24 


cueillir 


67 


rendre 




impersonnel, 


25 


fleurir 








26 


endormir 


68 


battre 




U = unique 


27 


fair 


69 


connaitre 




forme pour 


28 


sentir 


70 


croitre 




le participe 


29 


servir 


71 


mcttrc 






30 


vStir 


72 


naiire 




31 


courir 


73 


accroitrc 




D = d^fectif. 


32 


mourir 










33 


tenir 


74 


suivre 




R = verbe 


34 


ouir 


75 


vivre 




n'existant 


35 


faillir 


76 


foutre 




pas sans 


36 


g^sir 


77 


rompre 




pronom 


37 


chauvir 


78 


fiche 




r^fl^chi 



9'j 
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fablier, ,1*1 
fobr1c«nt, .tt5? 

fftbricien, .nil 
ffibricoter, .vj 

fsbriQuer, .V5 

f alxiUteuf , .106. A56 

f5buUr, .V3 

f otoul ewswwnt , . ADV5 

fi>C, 

facr, .«21 
facer,. V4 

fi»cette« 
f«c«tter, .V3 
f4ch#,.A3? 
fAcher, .V3 

f6ch«ux. .III63.A65 

f»C» I Uer, 
facondf , .njl 
f aCixT*^, .AS? 
fsconrt^r , .V? 

fdctue, .W1,A31 
f»cttccfi)ent, ,4DVE 

fact tevstniem , .ADVf 
fact *eux, .W63.A63 

fact tonner . .v3 



fa£t*tif,.in.Ai8 

fact h f vw^nt , .ADVt 

factor aflf. .Ift 

fscrorap<e, 

factor^et, A4D 

factoPieU€,.K21 

factoring, .Ifl 

factor i sat io#>, .If2^ 

fflCtoriser, .V3 

factotup, .«1 

factrtce,,N21 

f«ctuel,.A40 

factual Icfnrnt, .«)VE 

factti?^, .NT 

facturat«on, .N2l 

facture, .1121 

foctyrer, .V3 

factuner, .N1 .1142 

facuta, .ii?T 

facuttaire^.Aj^ 

ffiCwttatif,.A38 

f acut tat t v«T»nt , . ADVE 

faculty, .N21 

fade,. 1131. A80 

fe<tetse,.M21 

fsf^sKe, .A31 

fa£tes$e«*nt, .ADvf 

fadaasarta, 

f ado. .431 

fsd#,.A32 

faderaartt , .ADVE 

fader,. V3 

fadeur, .K?i 

fading, 

fade, 

fft^, .N21 
f cf iner, .V3 
fafiot,,»i 
fBfaU,,»<2l 
fa^fia, 
fagot, .N1 
faftoto^e, .1^1 
fagot^r, .V3 
faeotiar, .1842 
fafiotin, .hi 
tfijoue, .N?l 
fahrenhe't. .N2.A8Q 
fatbiage, .Ml 
feibtard, .N32.A52 
f aiblardawent , .aOvE 
f««blt..irl.N3« .A51 
fa»blr«»nt, 4Dv£ 
f dtb(asfta, . u2l 
fa)bttr,.viatJ 
faiff^age, .N1 
faience, .k21 
fa*aoc^, .A52 
fatenct'-te. .J*?i 
f ft»enc ier. ,b<;2 



fstgnsnter, .v3 
faUle. .N21 
f«nt«, .A32 
fei Ucr, .V3I 
faHH, .N32.A32 
faitUbHit^,.N2i 
fa<lUbla..A31 
faf lHr,.V35u 
fo1Ufte,.N21 
fe<m,.N?1 
foine, .W21 
fftinc, .1(21 
falr>*ant,.K32.A32 
fain^enter, . V3u 
fa^n^antise, .K21 
fRir, .4ao 
fatre. .N25.V80 
fai56^i I tt^, .W21 
fetj^.' '^.^Si 
fsise , .Wt.N32 
faisandoiK, .Wl 
faisand^, .A3? 
foisondeiH;. .W5 
fai zander , .v3 
faiaander .W21 
faisarw, .N21.A21 

feisann^aw. .Hi 

fsisceau, .n3 

faise^jr, .n3S 

fai&set ie, .N?1 

f8tt,.if1.A32 

falta^e, .K1 

faUe. .Nl 

faUeau, .K5 

fa^ti*re, .N21.A?^ 

fai tott , . Nl 

faix, ,HZ 

fakt •■,,if31 

faV 1 rtsme, .^^ 

faleise, 

fftlar ^qae, .1121 

fatfoets, ,M1 

faltMia^ser, ,V3 

feictfprme, .A31 

fatdtstot re, 

fat erne. 1 

fat laoeusement , ./iDvF 

fat lacieuk , .A6^ 

fat totr, . VS5>L' 

falot^.fcl .43? 

falourde, 

falquer, , V3 

fftt^^f tabi Ut^", .N?i 

fal$> f table. .431 

fats I f icateur , .kit 

faic^f icat .'on, .n21 

falstf ter, .V5 

fatuc^e, .N?i 

fatLin, .111 
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Exemple DELAF 



f , . If? : Hm& : IHttp 
fable. 

f at>l taux , • 1 .•i3:Nn^ 
filtJt ler, .1*1 riwis 

fat>ric»nt^. • 1 .Uj^rHf s 
fobrtcantt. • 1 . w32:lirTip 

fftbr^fetton, .N21 :Nf s 

fabric at tons, -1 :l«fp 

f flbricatrtce, '4fLir.ii36:Hf s 

f ocricetrices, -Scur .Ji36:Nfp 

f abncten, :»<m$ 

fabric »enne, •2.M4l:hf s 

faijrtcterws, -3.1*41 :Nfp 

f fibr I c I ens , ■ 1 . »*4 1 .• Wnp 

fabr»cct«. '1er.V3:J3» 

fobf icotai , •?er.v3i jU 

ffibricotatent, -Ser.vSil^p 

fabrtcotats, '5«»r.v* I1s:l2s 

fabi*icota»t, '3cr.v3 ; 13s 

fflbricotAmfs^ ^er.VirJlp 

f 0' 1 cot ant, •3er. v3:C00 

ftt^rtcotas, •2er.v3: j2s 

fabr icotsjis*, -^er .V3: TIs 

fabr tec t assent. '6«r,v3:T5p 

fabriectasses. 5er.v3:T2« 

fabr i cot asfti^z , •6er.v3:T2p 

fabr » cot ess ions ^ • 7er. V3:Tlp 

f ftbr»coTAt , -^^r .v3:^ 3& 

fabr 1 cot ^tes, -ipr.vS: J2p 

fabr 1 cote, Or.v3 PU3s:Sls3s:Y?s 

f ebf »ci>t^. • ler . V3;itmii 

f obncot**, ' 2<?r .i^^rKf & 

ffibr icot^ts, -ier.vJrRfp 

fobr^cotent, •2r.v3:P5p:S5p 

fabr icoter , . v5 :W00 

fabr Tcoterfi, - t .v3if3s 

fabr icr*era» , ■ ?. V3; f U 

f o£>r jcoteraienj , ■5.v3 -C3p 

fabr »cot ere ts, - 3. v3:CH: C^s 

f abr ^coteroit, -3.v3:C3s 

fabr KOteras, •2.v3,f2s 

fabr leoterent. 5er.v3:j3p 

fabr tcoiere; , 2. v3; f 2p 

fotjrtcot^riei^ •3.v3:C7p 

fabi icotertons, '<,.v3:C1p 

fabr icoteron^, ■ 3. v3: Mp 

fabr uot front , -5.v3:F3p 

fabr »f ote^ , If . v3 :p;>s : 

fat^c icQte?*, 2er .v3:^n^ 

fapr ^c^te^, '1r.v3:P<p't^p 

fsbncor -3tr.vi l2prS?p 

fabrtconons, 4er .v3 : Mp- s1p 



fabricoton*. •3tr.v3:P1p:T1p 
fabrjqufi, •1er.V3:J3s 
fflbrtquei , •2er.v3;Jls 
ffl^noviaipnt, 5er.y5:l5p 
ffibf »aue»s, ■5er,V3:Jt»: I2& 
febriQuait.-3«»r.v3:J3» 
f abr » quafncs , '4er.v3:Jlp 
fftbr iQuani. -3er. V3:G0O 
fabnquas, -Jer.vS: ;2s 
fdbrtqyasse, ■4er.V3:T1« 
fabrtQuassent, ^tr .V3: T3p 
fafariqu^sses, •5er.v3:T2i 
fab»'»Q,iasstei, •6<r,v3:T2p 
f ^r iqua^Sions, -7«f ,v3:T1p 
fabriquat, - 2«r, v3:T3» 
fabr iquates, -4er , v3: J2p 
fabriQ^, .U21:Nf^ 
fabr iq^, - Or .v3:P1s3s:SU3s;T26 
fabr ' 1er.v3:l:f!» 
fabrjgu#«, -2«r. v3:i;fs 
fabr iqu^es, -3er ,V3'.Kfp 
f6br*Quent, ■2r.v3:P3p:S3p 
fot>riqu?r, .V3:WOO 
fet>r itjuera, 1 ,V3rF3s 
fabri<tL*rai , •2.v3:Ms 
fabriqueratent, -5.v3;C3p 
fob-tquerei&, -3 . v3:C1s:C2s 
fabr iqurrai t, •3.V3;C5s 
fat>r»Quer8S, •2.v3:f2s 
fabr ^q^i^rent , -Ser.vS: j3p 
fobrtovtrez, '2.V3:F2p 
fabriQuenex. •3.v3:C?p 
fabr tquf non^, ■4.v3:Clp 
f abr jquf rons, • 3 , V3 :Mp 
faprtg^ront ,-3.V3:f 3p 
fobr iqjes, - 1 : Nfp 
fflbnqucs, • 1r.v3:P2^ rSi*!! 
f ftbriqu^S, ■2er.v3:Rn>p 
fabf ^quf z. • 1r . v3:P2p:T2p 
fabnquipi, ■ 3er . v3 : 12p: S?p 
fabr I qui on*, -ifr , v3; |1p:S'p 
fabr 1 quc>rts , • 3€f . V3 : Pip: rip 
^jjbula. - 1ef .V5: j5« 
f/jojlt', •2fr.w3;JU 
fdtxjlfi'fnt, ^er.v3;I3p 
f abuLais, Jer V3: I U; I2s 
fab^jiatt. -3rr.v3: 1 3s 
f abcl anie^^ - 4er . v3 : j^p 
f abui ant , • 3cr . v3: COO 
fatx^ias, Per.vS; J?s 
fabulas^e. 4€r.V3:TH 
f afcxil assrnt ^ 6er.v3.r3p 
febula^ses. ■Ser.v3;T2s 
fabuSassifr. ^tr .V3:T2p 
f atxjt fls^.tc^s, • ^^r v3;Tlp 
fetx^iat^ ?e' v3' T3«. 
f atx>t ate«,, • <.e' . ^3 ■ J2p 
f ntJui fit Puf , . . Vms 



f abulateurs, • 1 .*56:ArT|5 
f«bulstion,.l<2l:>rf& 
f afaulat ior\&, '\.H2^:Ui;i 
fsbwlatrue, -Aeur .l«36:Nf & 
fabvlatrice, -^^r ,fk\t:^is 
f^iatr^ccs, -Srvr .lij36:Nfp 
fabulatnces. -Spur , A36:Afp 
fabuU, ; ' 3:P1s3s:S1s3s:V2?. 
fi>bul#, •1«r.V3:Kms 
f«bui*«, •2er. V3:i;fs 
fabuUes, •3er.v3:Kfp 
f abuient, •2r . v3:P3p:S3p 
fabuier, ,v3:wOO 
fobulera, -1.v3:f3s 
f ab^jterat, •2.v3:ns 
febuteraient , 5.v3.'C3p 
fibuierais, '3.v3:CU:C2s 
fabulcrait, ■5.V3:C3s 
f«txicfes, •2.v3:F2$ 
f atvl^reni. • 5er, v3: J3p 
fabulprei^ -2, V3:f2p 
fabuUritj.-3,V3:C2p 
febglmoos, -4,V3:C1p 
febuleroofi,-3,V3:Flp 
fat5wi*ront,-3.v3:f3p 
fabu^as, •1r.V3:P25:S2* 
f abul^s. ■2fr . v3:i;np 
f flbu(cus<, ■2x.A63;Ats 
f abMlewse*T«nt , .Adv 
fobuteuses, •3*.A63 ;Afp 
fabul^un, .A63 : Am$ : fimp 
f**butei, •1r.v3:P2p;t?p 
fobu{ t^t,-3«r,v3. !2p:'S?p 
fabui ions, • . v3M ip.SIp 
f abwt t&t*, .w31:Nfm,T^^s 
f ab^l i$tfs. • 1 ,i^3t :NfT^:iy^p 
f etxi'.on*., ■3fr .v3:P1p:Ylp 
fflc, .N?1 :HH 
faca, 2cer.v4: j3s 
f a(»(^, :<«f !. 
facacies. '^.h2^■.U*p 
faC£>' , Ocer. V4:jH 
f sca'ent , •6cer . V*. : 1 3p 
f acflis , • '■-cer . V4 : Ms : ! 
f a;o 1 1 , • 4c er v«. : 1 5s 

f otant , - 4cer . V4; tOO 
faca^, 3crr .V4r j2<t 
facajsf, 'Scer.V4rTU 
f BCflssrnt , 7<f r .V4; t3p 
facasses, -6ce/- . V4 - t^s 
f acass^ri. • 7cer .V^ : Up 
faCA^iipn5», Scer,V4;Vp 
f eci^! , ■ Icf^r . v4 :T3s 
♦ acate^, ^jcer . v4 - j2p 
f .>^J1 .wfs 

?»CF, •0/' .V4'f 1s3s:Sis.5^-r,'s 
f ae * , - ler . W4 ' t fT^ 

f dCC-e, - 2f»r ,V4 . I! f $ 
facers, • 3er . W4 ;* f p. 
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Schema 5 
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Schema 6 
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FICHIER 4: Mauvatsc structure 



«bb«y«/b«n«dlct } (to . un« . fa : NA 
fit>e i 1 l«/i-har|>«nt t « r a r vin« : f b ' NA 
At>« i 1 X«/fiAv<^nna : uno : f e : NA 
«cl«r/tripl«x:dA4^«:B)0 :na 
act 6/ A i icite: un: fns:NA 
adiAbat.i(pie/satur6&: la : fo : KA 
adiabat l4|u«/»^cr»i» • )a: f p: NA 
af f«ct4/op*clal : ur\:t«a : NA 
agata/chry»opraa(»: uni^: f HA 
aq«n«Aie/fpl 1 lculetr« r la: fo: HA 
a^Ant/fiAratfiur : un * na ' NA 
aig\iO'-/sar ln«:un«: fa: nA 
alQWa/iBarin* r une : f 9 : NA 
ai r/fo«al :d«&l« r ns r NA 
a 1 phaba t / qo t lqij« : l«:mR:NA 
a 1 phab»t/fior Be ; I o ; les : NA 
a»snlt«/oronqe: uner f a - NA 
anlcalA/boui J9t«:un<»; fa: NA 
aapl ituda/occasa : uno : f s : NA 
Ana/cornard r un :»« t na 
annAl ld«/MrudlnAa: un« : fa r NA 
annAl i6m/o\ iQocn*ta;ur>r»a:NA 
ann^l id*/ol i9CK*h4t a : una - f e: nA 
»nr»#l lde/polych^t0; Mn«r fo? NA 
•ntanna/parabolo^dar una: fa r NA 
apparai l/dAco»pra»aouf : un ; »9 ; NA 
araiqnAa/cttasaauo*! ; un«* f a : NA 
araaa/r^qu] l^ra* 2a: fB:NA 
arbr a/a r(»l n * un ma r NA 



arbra/ fosa i 1« : un : ps : NA 
ar<ina/ fiqul ina:dai la : fn: NA 
argot/polytflchnlclen: i«;n»rNA 
ftrtar«/carotida:un«: tn.Hk 
aasoclat ion/AcolCHjiat^; una : far NA 
At 1 antiqua/Nord : la;»a r NA 
at 1 ant iqua/ occidental : la^na^NA 
Atlantiqua/Sud : la: sa: NA 
ato»«/donn«ur : un : *a : ^^^ 
ato»a/»arqu*ur run i uta ; HA 
»uto/aacram#ntal : unros • NA 
avanlr/coKsarciai : un: ma :NA 
avanlr/AcDnoalqua : un : ts j : NA 
Avanir/ '«»ddtat ; la:{SB:NA 
avenir/). 1 It iquar un:fc» ; na 
avan ir/ prof aa a ionnai : unrm»:NA 
a V i on/ iRonopl an J un : pa r KA 
avion/t raltaur: un :aa r NA 
b«au/par l«ur ; un: »«: NA 
b«6u)oIaia/pri»aiir:d«4)a: B0 : NA 
bec/pal lataur :un:i»«; NA 
bl4/iaAt«ll ;d«&lft:»a:HA 
t) 1 i ndA/ 1 «q#r : un : Ps ; NA 
l;t;p\hc/ AiSroaol ;una: f ft; NA 
bojiicauj</pf iiaei ■ r da& 1 e * »a : NA 
botoni<fu«/ fopai a : la ; f a : NA 
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ibi^iiiMENTS D'UN ATEUER DE GENIE tINGUlSTlQUE 

UAfiA ^tmtm France 



0 INTRODUCTION; 

L'analyse et la comprehension de textes en langue fran^aise, en vue d*applications diverges 
(traduction automatique, construction d'interfaces utiUsateur conviviales, syst^me de resolution de 
problemes poses en langue naturelle) sont une tdche complexe qui necessity un environnement 
informatique specialist; un tel environnement est appele ateiier de ginle UQguiraique. 

Un tel atelier se compose des element suivants: 



m un ginerateur d*analyseurs syntaxico-semantiques. 

■ un systeme de gestion de bases de donnees linguistiques, 

■ un systeme expert en resolution de problemes poses en langue naturelle. 

■ un illustrateur graphique. 



Ncus presentons dans cet article deux realisations du LIANA: un generateur d^analyseurs 
syntaxico-semantiques pour des grammaires lexicales realise par Jean-Frangois HQe, et une 
interface, construite par Patrick Legrand, pour constituer les dictionnaires electroniques qui 
utilisent les representations de Maurice Gross [11]. 



1 UN GENfeRATEUR D^ANALVSEURS SYNTAXICO-SfeMANTIQUES 

IJ introdifictioo 

Dans la nature, le sens s^exprime d partir des formes et de leur langage. La syntaxe de 
ces formes peut fetre fort complexe et tres irreguliere. Heureusement, il est un domaine, celui de 
nos langues indo-europeennes, oil cette irregularite et cette npieAite sont fortements att^nu^es. 
Trois principes sont utilises i cet eff^t: Tusage d*un nombre restreint de symboles graphiques, la 
Hnearite de la disposition de ces symboles pour former un texte, Texistence de regies de 
;:rammaire en nombre peu eleve et relativement stable au cours du temps. 

Cependant Timmense variete de ce qui doit ^tre decrit par ces langages: les objets, les 
actions, les synchronisanons a pour consequence de rendre difficile Tanalyse syntaxico-semantique 
des textes en langiu- naturelle. 

Une science particuliere, la lingui^tique, s'est developpee dans le but d'6tudier les langues 
humaines sous tous leurs aspects. Une sous-branche tres riche tte cette science gdnerale est la 
th^orie des langages (1], (2], [3], [4}, (5] dont une des ambitions est la realisation pratique des 
analyseurs syntaxico-S'^mantiques que demande la construction des compilateurs des langues 
artificielles de Tinformatique. Cette mdme theorie des langages, combinee avec d*autres, 
est ^ la base des realisations pratiques des systemes automatiques de comprehension des langues 
naturelles [6]. 
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Un grand nombre d'analyseurs syntaxico-s6mantiques pour textes en langue naturelle 
suivent avec rigueur dans leur analyse le principe de la presentation Iln^aire de nos langues pari e 
que leur conception decoule directement de la definition des gramraaires lexicales dans lavjuelle 
certains termmaux joueront un rdle particulier; leur ensemble sera nomm6 lexique 



1.2 R^sum^ des Id^es qui inspirent ce travaU. 

*•♦ A un langage dont la grammaire peut Hre omplexe on associe une grammaire lexicale 
dont les grammaires associees sont plus simples (Algebriques et d^terminrstes [7]). 

*♦* L'analyse ne se fera pas lin^airement sur le texte d'entr^e de I'analyseur mais ^ partir 
des symboles particuhers de lexique; une analyse lineaire normale pourra se produire autour d'eux. 
Une generalisation possible, qui sera etudiee ulterieurement, est de ne plus s'interesser a de 
simples termmaux mais d. des groupes de terminaux; on parlera alors de grammaJres polylexlcalcs. 

•**Ces grammaires lexicales peuvent dtre definics a partir de grammaires elles-m^mes 
lexiciiles ce qui permet une analyse syntaxico-semantique par couches successives, en profondeur. 



11.3 D^finhlon d'une grammaire lexicale. 

On appelle grammaire lexicale un ensemble {L, G, ¥) oii: 

L est un ensemble de symboles appele lexique. 

G est une grammaire dont Tensemble des terminaux est egal ii L, 

F est une fonction de L vers E'E oii E est un ensemble de grammaires. 

F: L— >E*E 

!-->( Gg(l), Gd(l)) 

avec Gg(l) grammaire gauche de 1 et Gd(I) grammaire droite de 1. 
Exemple. 

Soit le langage U= {x/x=fl h c n N*} pour lequcl il n'existc nas de siramnmiri' 
algebrique {?]. 

Definissons une grammaire lexicale GLI={LI ,C1 ,FI } qui Penrendre exactement: 

Ll:={b} 

G1=(V1„,V1».,A1,P!) avec 

V1n={A1) 

V1t=L1 

P1={A1— >bAI,Al-->nil} 

10;) 
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ou 



ou 



F1:I !-->El'El 
b">(GIg(b).Gl^(b)) avec 

Glg(b)={GlgN(b),GIgT(b),Alg(b),Pyb)} 



GI N(bHAl,rb)) 

Girr(b)r=fa} 

PI^b)={Ayb)-->a) 

Gl^b)={Gl^N(b),GldT(b).AId(b).Pl^b)) 



GldN(b)={Alj(b),GLlj 
Gl/f(b)={c) 

PJd(^>=(A1j(b)">GLlc) 



Comnie on peut le remarquer ies grammaiies ci-dessus sont toutes algebriques ct 
deteiministes et il y a un ^tppel recursif de la grammaire lexicale dans la grammaire gauche de 'b'. 
>4//i.vi un langage pour le-mel il n'e.xisle pas de grammaire algebrique est engendr^ par une 
grammaire lexicale qui Jan ap.n'l ii deux grammaires algebriques deterministes: ce resultat est en 
soil remarquable. 



ARBRE SYNTAXIQUE ASSOC y F A 'aabbcc' 
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le trait pointillc est utilise pour reprcsenter les derivaiions de la grcmmaire rauche et de la 
grammaire droite d^un symhole du U-xique L^ucne ei ae la 



^SAiASl SVNTAXIQUF i)F. nabbtt' 

rnnciH^'^'i*''^"'!''' ^T"'"''' '^'-'^"^'^ S;^uch- droite, un svmbole soulignc n'est plus 

consjdere dans la suite de Tanalsse s\nt:ixique, 

aa^bcc 

derivation i\ g;uiche 

a^boco 

derivation :\ ,ioitc 

recherche du second 'b' 

derivation A gauche 

ajibiscc 

derivatic" a droite 

aablzgc (il n'y a pius de b) 
derivation a droite 

Tabbcc 

I.e texte est reconnu cumme syntax Ujuement correct vis a vis do C;i I. 



1.4 Construction des analyseurs assoc;6$ au\ grammaires lexkales 

r~tv v°"! o;*'''^^'^'. ^"""^ '^''"'^^ analyseur <rune grammaire algebriqut deterministe 
^~{yf^,yj,A,F} une interpretation par les fonctions Boolcennes (8); Panalyscur associe a H 
grammaire sera nomme aralyseur Boolien |9). 

II va s'agir de construire, en s'appt'.yant sur les svmboles du texte ii analyser et sur les 
egles de production de la fManmair-e une s^.ie v.e fonctions Boolcennes iPJ^,i I'i.-Vt- -->{0 1} 
dont cn lvalue le produii au fur et a mesur- de Tanalyse, Si a la fin du texte le produit egale 
a 1 aiors le texte est syntaxiquem^^n' ■.or.ec. sinon il est syntaxiquement incorrt rt. Pour un texte 
syntaxiquement incorrect I'analyse d'arrete des la lencontre d'un symbole pour i-quel on ne peut 
trouver, en appliquant les regies de production de la gra. ....aire, une evaiunuon .Taie. 

Suivant ce principe nous avons Lonstruit un g^o^rateur d'analyseyrs Bool^ert« pour 
o^aUJi;;''-'^' algebr.ques- aetermi'-.,stes qui par extension est capable de generer des analyseurs pour 
grammaires Icxicales. En effet s. pour toute grammaire algebrique determinirte nous pouvons 
taire correspondre un analyseur Booleen, pour une grammaire lexicale dont .e Iexique comporte 
para^g'^aph analys-ur Booleens (d'apres la definition do.inee au 
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ARCHITECTURE DU GEN^RATFUR D'ANALYSEIJRS BOOLEENS: 



texte d 'entree 
d^crivant 
la grammaire 
alg^brique et 
d&termlniste 
ainsi quo 2es 
actions 
s^mantlques . 



CENERATEUR 



llste 

interpret ahl e 
g^n^rateur , 



Texte du langagc ^ 
analyser et liste 
interpr^table. 
par le 
g^n^rateur . 



INTERPRETEUR 



rt*sultat de 
1 'analyse 
et code 
s^mantxque 



La liste interpr^table est rang^e dans le dictionnaire ies analy«eurs pour grammaire 
algdbrique et deterministe. 



ARCHITECTURE DU C6N£RATEUR D'ANALYSEURS POUR GRAMMAIRES LEXICALES, 

Un analyseur pour grammaire lexic^les est comjws^ de plusieurs anatyseurs Bool6ens 
secondaires (deux par symboles de lexique) et par un analyseur Bool^en principal qui va etre 
charge de Tanalyse du langage Ii6 au lexique, et des appels successifs des analyseurs Bool6ens 
secondaires. 



Le gen^rateur d'analyseurs pour grammaires lexicales est construit ^ parfir d'un g6n6rateur 
d'analyseur Bool^ens: 



texte d* entree 

d6crivant 

la grammaire 

lexicale 

ainsi que les 

actions 

s^mantiques^ 



CENERATEUR 



liste 

Interpretable 
par le 
g^n^rateur . 



L'interpreteur pour analyseur de grammaires lexicales est construit ^ partir d'un 
interpreteur d*analyseurs Booleens: 



Texte du lengagr* h 
analyser l^jste 
interpr^table . 
par le 
g^n^rateur 



INTERPHFTEUR 



r^sultat de 
1 ' analyse 
et code. 
s6niantiquG 



1.5 Vers un ateSier de g^nie linguistique 

Le genie linguistique recouvre la mise en oeuvre des methodes issues de la theorie des 
langages dans le but de realiser des applications industrielles en : 
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■ Comprehension des langues naturelles, 

■ Traduction des langue:} naturelles. 

■ Resolution de probl^mes pos^s en langue natureile. 

■ G6n6rateur d'analyseurs syntaxico-semantiques. 

■ Systdme de gestion de base de donn6es linguistiques. 

■ G6n6niteur de syst6mes experts en Hnguistique. 

■ Gen^rateur de representations graphiques. 



2. UN OUTIL D'feDITION DE LEXIQUE 

DourauoT°dtn'fPMn'ij^^..**°r ^'^^^^^e^^ ensemble d'arguments qui mettent en lumiere le 
rSnt'fcieV unK " '^"^^"^^^^ ^" 

^cnc " i^V i*/!^-®***^'®^ dictionnaires (traductionnels) enregistr^s sur support magnetique 
3^?tJH.".lJ'"' ^l'*''*'*"* dictionnaires dits eiectroniques, con9us. organ^es 4 des fins 

d utilisation par des programmes realisant des traitemenu automatiques de la langue. 

c^.o^nHc^".-^®"^ songer A utiliser les premiers (dictionnaires traditionnels) pour constituer les 
seconds. Cepenaant, cela pr^sente quelques difficult6s: 

traditionieir^"'"*"^^' " "'^^^ ^'''^^^"^ supports magnetiques des dictionnaires 

. IT- ^'information stockee dans les dictionnaires traditionnels n'est pas organis6e de facon 
sufTisament r.goureuse (non par rapport a un absolu, mais par rapport I ce que I'on veut en 

3) Mais surtout I'information manque. Elle est incomplete, parcellaire. 

niPin..m^ri-i ^^^^ °" ^""^"^ ^ concevoir et d constituer des dictionnaires, 

pleineraent utiles aux traitements automatiques, differents dans leur forme et par la qualite et la 
coherence des informations qu'ils renferment, et dont la reference est le lexique-grammaire du 

A^A. A- presente ici, se veut une aide & la constitution de tels dictionnaires. II permet 

d etudier, par des methodes similaires d celle du lexique-grammaire, toutes proprietes linguistiques 
souhaitees sur n'lmporte quel ensemble d'unites linguistiques s » Mir^ 



Le logiciei 

Fondamentalement, ii sert a faire de I'edition {entrer en mac} ne des donnees) et aussi un 
peu de selection. ^ 
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Aspect g^n^ral des Ubles 

Ce sent des tableaux ^ doubles entries, en Hgnes et colonnes (cf. figure 4), Au 
croisement d*une Hgne et d'une colonne est siock6e de rinformation (cod6e avec peu de valeurs 
en g6n6ral). Chaque ligne ou entree horizontale peut correspondre a un item lexical; chaque 
colonne, ^ une propri6t6 que poss^dent ou non les items lexicaux. 

On est amend k editer trois ensembles de donndes. Deux sent des Ustes, les entries 
horizontales et verticales, le troisieme est un tableau bidimensionneU la matrice elle-mSme. On 
dispose de deux dditeurs: un pour les listes, Tautre pour la matrice. 



•Edition des LISTES (c/. figures 3 et 3 bis) 
Type des listes pouvant 6tre 6dii6es: 



Simple ou do&tble 

Simple: uue liste de verbes, de noms... 



lister 
localiser 
maintenir 
maitriser 



Double: chaque element de la liste est un enregistrement de deux champs. 

Le premier champ^le champ principal et celui qui est manipul6 en priority lors de la 
matrice. 

Cela peut ttre par exemple un code denotant une structure syntaxique NO V Nl. 

Le second champ etant une information compl^mentaire. utilisee ^ d'autres fins. Dans 
notre exemple cela peut 6tre Texplication du code (phrase 6!ementaire: Sujet Verbe Complement) 



Ordonn^e on s^quentlelle 

Soit un des champs est ordonne suivant Tordre lexicographique, soit il n*y a aucun ordre 
^ priori (sequentiel). 



Indexation 

Si Tun des champs ou la liste n'est pas ordonnd, on peut cependant construire un index qui 
permet virtuellement de Tordonner. 
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Duplication autorls^e ou non 

non 6tr?dupHquie ^^'^ o^«*onnee ou index6e, on peut indiquer si um entree quelconquc peut on 

XAK..» 7°]^ I'ensemble des imp^ratifs qui ont rtgi la construction de r^diteur de listes Au 
nfrmlt 1 12""^"'-'^;? " d'une nouvelle liste se ddroule une phase dite de configuration qui 
permet de d^termmer rorgamsation future de la liste, r^diteur tient compte ensuite au cours des 
manipulations de la hste de cette organisation. «u uu ^ uc> 

Quant ft r^dition proprement dite, on y retrouve les fonctions classiques de I'^dition- 
creation, suppression, modification, d6placement d'entr^es (pour les listes s6quentielles)' 
impression, enregis^rement des donn^es, et bien sOr on visualise et on se d6place ais6ment dans 
IE iiste. 

Des modifications apport^es a une liste peuvent avoir des repercussions sur la matrice qui 

lUI 6$t iIcC 
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A:\t6 



Fl -Edition des entries horizontales, 
F2 -Edition des entries verticales. 
F3 -edition de la matrtce* 
F4 -matrice selectionnie, 
FIO -Fin 

Votre choix: Fl 
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A:\t6.E00 



CONFIGURATION 

iiste simple ordonn6e sur le champ principal duplication non itorisee. 



abandonner 

abolir 

abroger 

accepter 

accueillir Advm 

adjurer 

admettre 

adopter 

affecter 

afficher 



ler champ: 



CREER 
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A:\t6.MAT SfeLECTlONN^E 



Fl -Edition des entries horizontales. 
F2 -Edition des entries verticales. 
F3 -Edition de la matrice. 
F4 -matrice selectionn6e. 
FIO -Fin 

Votre choix: F2 » 
aucune ligne n'a 6te s61ectionn6e. 
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A:\t6.E0I 



CONFIGURATION 



liste double sequentielle. 



NO h:sujet, substantif humain (Paul) 
NO-nsujet, groupe nominal non restreint P 

NO-rle faitQuP-.sujet, groupe nominal non restreint,completive:le fait QU P. 
NO-rVlC:sujet, groupe nominal non restreint, infinitive dont le sujet est le le . 
NOV.Sous-structure, les complements peuvent Hrc facultatifs 
NOVcontreN h:distribution sujet verbe 'contre' substantif humain 
NOVaprdsN h:distribution Sujet Verbe 'aprfes, substantif humain 
NlQuPind:compl6ment direct, completive ^ Tindicatif 

NlVOCxompI^ment direct, completive Qu Pind restructur^e en une infinitive dont 
NlauxVOC:compl6ment direct, completive Qu Pind restructuree en une infinitive a 



ler champ; 



2i6me champ: 



CR^I R AVANT 
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A:\t6.MAT StLECTIONNfeH 



Fl -Edition des entrees horizc^ntales, 
F2 -Edition des entries verticales. 
F3 -Edition de la matrice. 
F4 -matrice s61ectionn6e. 
FIO -Fin 

Votre choix: F3 



aucune Hgne n'a 6t6 s61ectionn6e. 
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NNNNNNNNNNNNNNNq q ^ 
OOOOOOOlliliiiiuut 
---VVVQVadVVeAe 



h r r r 
I V 
e i 
f C 
a 
i 
t 

Q 
u 

P 



c a u O u e 1 1 t 
o p P C X V i a r 
n r i V O n n e 
O C f t A 
C C C d 
j 



ten 
r s d 
e N 
N 

h 

h 



e r 

d N N e 

j O O A 

V V d 

A 6 j 

d t Q 

j r u 

e P 
A 
d 

j 



abandonner 

abolir 

accepter 

accueillir Advm 

adjurer 

admettre 



+ 

+ 

+ 
+ 
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CONCLUSION 



Le traitement automatique des documents naturels ne peut sc faire eff icacement que si Ton 
ne dispose d'un eovironnement logiciel sp6cialis£ et suffisamment convivial afin que des non 
informaticiens linguistes puissent Tutiliser ais6inent. Un prototype d^atelier de g^nie llnguistlque: 
Patelier LI est d6velopp6 en Smalltalk [10] dans «e cadre du LIANA ;>our satisfaire les besoins de 
divers projets: Le projet Franco Canadien de Syst^mes Intelligents en Langue Fran^aise, le PRC 
informatique et langue naturelle. 

La fabrication d'un protot pe de compilateur en langue naturelle A Taide de Tatelier LI 
doit illustrer la puissance et refficacit6 d'un tel environnement. 
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0. INTRODUCTION 



Cette 6tude a pour objectif le developpement d'une methode de mesure du degr6 de 
difficult^ de textes relatifs t rinformatique. Les mesures ainsi obtenues devraient guider le lecteur 
^ventuei dans le choix de textes adart^s i sa competence. 

Le princIpe g6n6ral de la iriethode est de mesurer la difficult^ en fonction du vocabulaire 
contenu dans le texte, en tenant compte du contexte. II s'agit done d'6valuer chaque terme selon 
divers crit^res, tant iexicaux que- contextuels. Une mesure globale pour le texte d. T^tude peut 
ensuite fitre obtenue en fonctior. des cotes de difficult^ de Tensemble de son vocabulaire. Nous 
pr6sentons ici les diff^rentes variables, lexicales el con'sxtuelles, qui interviennent da 
revaluation du degr^ de difficult^ des termes propres A rinformatique. 



1. DESCRIPTION DES VARIABLES DE N«ESURE 
1.1 Variables lexicales 

1.1.1 Categoric grammaticale 

La cat6gorie grammaticale a deja ^te avancie comme un facteur influen^iant la difficult^ 
dans le domaine des langues secondes (Mackey, 1%5) On y mentionnait que les verbes 6taient 
plus difficiles d apprendre que les noms ou substantifs. D'autre part, des recherches en 
terminologie (Guilbert, 1981) ont appuye Thypothese voulant que la cat6gorie des substantifs 
prdsente moins de difficulte que les autres categories grammaticales. 

Bien que rien n'indique la presence d'une hierarchie des difficultds parmi les categories 
autres que les substantifs, nous avons tout de mime distingue plusieurs valeurs pour la variable 
categoric grammaticale. 11 sera possible d'evaluer la pertinence de cette distinction au cours d'une 
analyse subsequente. Les cinq valeurs retenues sent : substantifs, verbes, adjectifs, adverbes, 
autres. 

La majorite des termes ne posent aucun probleme pour I'identification de la categoric 
grammaticale. Toutefois, quelques cas meritent une attention particuliere. 

Le premier d'entre eux touche les noms de programmes, de commandes ou de fichiers, 
consideres normalement comme des substantifs. Si "command.com", et ••exe2bin'' sont immediate- 
ment identifies comme des substantifs, il n'en va pas de meme pour un cas comme le programme 
"debug". S'agit-il d'un verbe ou d'un substantif ? Son comportement en contexte peut nous 
renseigner sur sa nature, particulierement lorsqu'il n'est pas prec je du mot programme qui 
confere inevitablement d Texpression une valeur de substantif. 

Dans tous les exemples retrouves dans le texte, "debug" se comporte comme un substantif 
en tenant le r61e de sujet d'un verbe. C'est done la valeur substantif et non verbe qui sera 
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attribute au teme "debug" lors de la saisie de la variable categorie grammaticale. 1 en ira 
mfime des autres cas b§tis sm le m%tne module ("select", "write", "r nlace" ,,), 

Un autre indifi contextuel vient appvyer cette decision. La plupart des portions 
de textes qui prdsentent un programme ou une commande d^butent par le nom de cette commande 
(en anglais) suivi d'une p^riphrase en fran^ais expliquant sa signification. Par exemple ; 
"RESTORE - Restauration d'un disque dur". Chacun des noms de commande er^ explique au 
moyen d*un substpntif ce qui renforce I'id^e que ces termes ont vr?'meni une telle valeur dans le 
corpus ^tudi6. 

Le cas de. certains termes tels que "ax" et "bp" pose 6calement certains probl^mes. Leur 
absence totale de signification k premiere vue emptche une identification immediate de la 
categoric grammaticak\ Encore une fois, la r6f6rence au contexte s'avfere ndcessaire. D'apres 
celui-ci, les termes recherch6s sont des noms de registres. Les registres se d^finissent comme des 
rones de m^moire ou emplacements et on peut leur trouver une ct taine similitude avec des lieux 
gdographiques. Dans cette optique, les noms de registres, tout comme les nom« de lieux, doivent 
figurer dans la categorie des substantifs. 

Aux probl6mes rnentionnds plus haut s'ajoute celui des nombreuses abr^viations dont 
regorge le texte & I'^tude, "Ko", "md" et "alt", abr^viations ..spectives de "..ilo octet", "mkdir" 
(elle meme abr6viation de "make directory") et "alternate" n'en sont que quelques cxemples. Pour 
chaque abr6viation, h prise de d^cisiin quant ^ la c it^gorie grai^maticale a dihuU par une 
recherche du mot abr6g6 et c'est la cai6gorie de ce dernier qui a etc af^ectee d son abreviation. 
"Ko" et "md" (nom de commande) se sont done vus attribuer la categorie substantif tandis que "alt" 
prenait pbce dans le groupe des verbes. 



1.1.2 Longueur 

Les Etudes portan; sur la longueur du niot (Henderson, 1982, McNeil, 1987; n'ont pas 
d6montr6 d'influence de ce facteur sur la difficulte de comprehension Cependant, la lon)?neur 
6tait alors 6valuee en fonction di» nombre de lettres ou du nombre de syllabes constituant 'e met. 
II serait int^ressant d'^valuer la longueur, non pas d'apres le nombre de lettres ou de 
syllabes, mais d'apres ' , i.ombre de composants (mots) qui forment un terme. La longueur, 
toujours 6gale it I pour It* term s simples, prtndrait une valeur superieure dans le cas des 
syntagmes (ex.: longueur = 1 pour "disquerv;", 2 pour "disque dur", 3 pour "unit6 grande 
capacity"). 

La longueur est tres facile a determiner pour les trois exemplts precedents : il suffi: de 
compter le iiombre de consfituants. Cependar.t, de nombreux syntagmes contiennent des mots 
graminaiicaux tels qu'articles, propositions et conjonctions. Ces elements, bien qu'ils entrainent 
pak fois une certaine compiexite sur le plan syntaxique, ne poscnt pas de probleme quand on parle 
de difficulte d'l vocabulaire car ils portent trfes peu d'information de nature semantique. Nous 
avons done resolu de ne pas en tenir compte dans la mesure de la longueur des «:yntagmes et de 
compter uniquement les elements porteurs de sens (ex.: longueur = 2 pour "impression ecran" et 
pour "impression d'ecran"). 

Bien que de longueur egale, ces deux expressions peuvent sembler differentes du point de 
vue de la difficulte. "Impression ecran" parait peut-etre moins clair que "impression d'eeran" et 
cette difference n'est pas refietee dans la longueur telle que nous la mesurons. Ce phenomene est 
tout t fait normal puisque la difficulte amenee par "impression ecran" ne tient pas a la longueur 
du syntagme, mais d la fa^on dont il est forme. C'est la construction anglaise du syntagme qui 
diiAinue la clarte et ce fait est note au moyen de la variable mode de formation qui sera expliquee 
plus loin. 
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On ne sait pas de fa?on certaine si la longueur du terme, bas6<» sur le nombre de 
constituants, a une influence sur la difficult^ de comprehension ni, si influence il y a, dans quel 
sens elle se manifeste. Trois hypotheses peuvent etre soulev^es ^ ce sujet. 

La premiere hypothdse veut que la longueur n'ait aucune influence sur la difficulte et 
qu'un syntagme long puisse 6tre aussi facile ou aussi difficile qu'un terme simple. 

Selon la deuxi^me hypothfese, plus un terme est long, plus il est difficile car ii compufte 
un plus grand nombre de mots susceptibles d'apporter des difficultes. P;^r exemple, "commande" 
par rapport a "commande externa" peut sembler plus facile k cause de la presence, dans le 
leuxi^me terme, -ie I'dl^ment "externe" dont la signification present? certaines difficult6s, 

Enfin, la troisieme hypothdse suppose que plus un terme est long, plus il est facile, car, 
i la mani^re d'un contexte, les 6I6ments supplementaires peuvent apporter des 6claircissements sur 
le sens d'un 6l6ment inconnu. Ainsi. Inrsqu'on compare les termes "tfite" et "tfite de lecture- 
6criture de Tunit^ de disquette" et que le sens de I'^l^ment "tdte" n'est pas connu, le syntagme long 
est plus explici.e que le terme simple. En effet, il indique ou se trouve la t6te en question et ce 
h quoi elle sert. 

De ces trois hypotheses une seule devra etre retenue dans la formule f nale du calcul de 
la difficult^. Cest dans une etape subsequente de la recherche et en utilisant un logiciel de 
statistiques que le choix pourra s'effectuer. 
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1.1.3 Degre d'abstraciion 

Tel que Tont avanc6 certaines etudes dans le domaine de I'enseignement des langues 
secondes (Mackry, 1965), I'influence du degre d'abstraction sur la difficulte de comprehension est 
assez facilement concevable. On peut, avec raison, presumer que les termes concrets s'apprennent 
et se ccmpre inent plus facilement que les termes abstraits. 

L'assif nation de la valeur concrete ou abstraite aux diff6rents termes du corpus s'effectue 
assez facilement dans certains cas. "clavier" et "imprimante" se classent sans probieme dans le 
groupe des termes concrets, tandis que "suppression" et "originale", designant respectivement une 
action et une qualite, appartienncnt indubitablement aux termes abstraits. 

Un probieme se pose avec certains termes qui ne se situent pas clairement dans la classe 
abstraite ou concrete. Par exemple, le terme "octet", en tant qu'unite de mesure de la capacity 
memoire, p^.aii plutdt abstrait, alors qu'il penche davantage vers les termes concrets lorsqu'on 
Tenvisage dans le sens d'une portion physique d'un disque. 

Cette incertitude oblige la creation d'une autre classe, situee entre les groupes concret et 
abstrait. Cette classe, que nous qualifierons de mi-concrete mi-abstraite, pourra recueillir les cas 
qui ne peuvent se placer resolument dans les deux autres groupes. 

Matgre cet ajout, il demeure que les frontieres ne sont pas tout k fait fermees d'une classe 
a rautre et que le choix d'une valeur pour le degre d'abstraction peut parfois s'averer complexe. 
L'iniuition ne suffis^nt pas toujours a trancher la question, I'emploi de crit^res un peu plus 
rigr :reux deviant necessaire pour delimiter clairement les trois groupes. 

La classe concrete regroupe les termes qui repr6sentent des objets qu'on peut toucher ou 
pointer. Les termes abstraits sont ceux qui ne peuvent avoir de representation physique sans le 
recours ^ un objet de reference. L'exemple suivant permet de mieux comprendre ce critere: 
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Une "copie" (action de copier) ne peut ttre representee visuellement sans un item ^ copier. 
Cest cet Item (fichier, disquette cu repertoire), qui constitue Tobjet de reference grSce auquel 
copie" devient representable. 

La troisienie classe, celle des termes mi-concrets mi-abstraits, peut pJus difficilement fitre 
deiimitee par des crit^res absolus. Nous dirons simplement qu'elle regroupe lous les termes qui 
n*entrent dans aucune des deux aiUres categories. 



1.1.4 Mode de formation 

En depit de plusieurs recherches en ce sens, nous n'avons malheureusement pas pu mettre 
la main sur une etude comparative des divers modes de formation des termes en fonction du degre 
^l.^**^^**^"^*^- corpus lui-meme qui a servi de base A la definition de ce critdre. En 

effet, pour determiner les differentes valeurs possibles de la varia'^le, nous avons eiabore une liste 
de tous les modes de formation du vocabulaire specialise renconires dans le corpus k I'etude. 

Cette liste tente de presenter un ordre intuitivement croissant de la difficulte de 
comprehension, mais les indices sont trop peu nombr^ux pour permettre un classement sOr des 
valeurs de la variable. Comme c'etait le cas pour la variable longueur, une analyse devra 6tre 
effectu6e ulterieurement pour s'assurer de la position respective des differentes valeurs. Celles- 
ci sont au nombre de neuf et correspondent aux neuf modes de formation recens6s dans le corpus. 

Le premier groupe refere aux termes qui sont puises dans un dictionnaire de frangais 
general et employes avec leur sens courant. Les exemples suivants en font partie : "ordinateur" 
"effacer", "imprimer". 

Les termes qui sont formes par analogie proche se retrouvent dans la deuxi^me classe. 
L*analogie proche signifie que la forme du terme est la mfime que celle d*un mot general, mais 
que son sens s'eioigne legerement du sens courant. Ainsi, un "fichier", en informatique, a pour 
mode de formation I'analogie proche : sa forme est identique i celle du mot general et ils ont en 
commum plusieurs caract6ristiques semantiques. 

II arrive que la forme d'un terme specialise soit celle d'un terme general, . que leurs 
sens soient assez eioignes. Nous parlons dans ce cas d'une analogic eloign6e, laquelle constitue le 
troisieme mode de formation. Par exemple, "configuration", "partition" et "unite" appartiennent 
& ce groupe. 

Les abr6viations sont regroupees sous le quatrieme mode de formation. Notre corpus en 
propose une assez bonne selection, dont les exemples suivants : "car" (abreviation de caractere), 
"impec" (abreviation de impression ecran) et "con" (abreviation de console). 

Plusieurs des termes specialises reconnus dans notre etude sont empruntes totalement ou 
en partie ^ une langue etrangfere, en I'occurrence I'anglais. Le cinquieme mode de formation les 
rassemble sous retiquette emprunts. Ce sont surtout des noms de commandes, comme en font foi 
les exemples qui suivent : "copy", "erase", "tree", "end", "select". 

Dans quelques cas, des termes tout a fait nouveaux se sont ajoutes au vocabulaire de 
rinformatique. Ces ndologismes, formes specifiquement pour designer une notion nouvellement 
apparue, constituent le sixidme mode de formation. Nous en avons exclu les emprunts p>our en 
faire une classe ^ part, bien que ceux-ci soient parfois consid6res comme un type de neologisme. 
La raison est que I'utilisation d'emprunts, etrangers mais peut-etre connus, n'offre pas 
necessairement la mfime difficulte que I*apparition d'une forme entidrement nouvelle pour le 
lecteur. "Formatage", "octet" et "disquette" sont les exemples les plus connus dans le groupe des 
neologismes de forme. 
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Le septidme mode d'^ formation est celui des acronymr ., Cest un groupe tres restf eint ne 
contenant que quelques termes et des syntagmas formes & partir de ces derniers (exemples : "dos", 
"basic", "ascii", "bit"). 

Le groupe suivant n'est pas davantage productif dans notre corpus. 11 renferme les noms 
propres et d6riv6s de noms propres, tels que "Pascal" et "Microsoft". 

Enfin, les elements correspondant au neuvieme mode de formation portent le nom de 
symboles. !i s*agit d'assemblages apparemment a.bitraires de caracteres, sans rapport visible avec 
le sens. Le corpus en compte pliisieurs exemples, entre autres : "xt", "wtvqq" et "nv", 

L'attribution de Tune ou I'autre des neuf valeurs t la variable mode de formation pour les 
termes a analyser pose rapidement un probleme : il est frequent de rencontrer dans un mdme 
ternie une combinaison de deux ou plusieurs modes de formation. Par exemple, "del", abr^viation 
de "delete", correspond aux quatrifeme et cinqui6me mode de formation. Ce ph6nomdne de 
combinaison, tout de mfime assez rare chez les termes simples, devient presque universel lorsque 
le terme est compost de plusieurs Elements. II faut done etablir une rfegle de conduite qui soit 
applicable k tous les cas pour ^viter de faire des choix arbitral res. 

Nous avons pens6 que le lecteur, place deva t un terme comportant plusieurs 6!6ments 
ayant des modes de formation diff^rents, saisira facilement r616ment dont le mode de formation 
est d'un degr6 de difficult^ peu 61ev6. Par centre, la comprehension du terme entier sera rendue 
plus difficile par la presence de I'dldment de difficult^ elev6e sur lequel le lecteur butera sans 
doute. Cest done le mode de formation porteur de la plus grande difficult^ qui determine la 
difficult^ d'un syntagme a ce niveau. 

Par consequent, I'attribution d'une valeur d la variable mode de formation, en presence 
d'une combinaison de modes, equivaut i Tattribution de la valeur la plus 61ev6e rencontr^e dans 
le terme. Exemples : 



"Wo", abr^viation du mot anglaia "word", ayant un sens p&rticulier an informatique, 
provi«nt d'une combinaison des modes de formation 4 (sbr^viation) et S (emprunt). 
C'eat cette derniire valeur qui sara attribute au terme "wo". 

"ImpresBion en 6cho" contient d'abord I'^Idment "impression" ayant la valeur 1 (sens 
courant) et ensuite ViUment "6cho" portant la valeur S (analogie <loign6e). 
"Impression en dcho" se verra done attribuer la valeur 3 pour la variable mode de 
formation. 



1.1.5 Degrc de specif idle 

Le vocabulaire scientifique et technique a deja ete categorise selon le degre de specificity 
(Descamps et Phal, 1968). II en est ressorti trois groupes de termes : 

1- le vocabulaire scientifique 

2- le vocabulaire semi-sp4cifique 

3- le vocabulaire technique 



Le vocabulaire scientifique, tel que decrit par Descamps et Phal, comprend les mots de 
sens tico general communs ^ plusieurs specialites au niveau fondamental. Ceux-ci peuvent 6tre 
le point de impart de lexies complexes (ex.: coefficient). "Coefficient d'absorption" appartient au 
vocabulaire iemi-specifique tandis que "coefficient d'absorption totale lineaire" repr-^sente la classe 
du vocabulaire technique. 
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Les exemples pr6sent6s dans T^tude de Descamps et Phal laissent supposer que c'est la 
longueur du terme qui determine le degr6 de sp6cificit6. Effectivement dans ce cas pr6cis 
"coefficient d'absorption" est plus sp6cifique que "coefficient" car il y a specification au moyeii 
d'un terme propre h un domaine ("absorption"). "Coefficient" passe done de la classe du 
vocabulaire scientifique g6n6ral k celle du vocabulaire semi-sp6cifique par I'adjonction d'un terme 
appartenant & cette deuxi6me classe. 

Mais, lorsque le mot sp6cifi6 est de type general et que celui qui le specific est ^galement 
membre de la premiere classe, le terme compost obtenu n'appartient pas ^ la classe du vocabulaire 
technique ni meme du vocabulaire semi-sp6cifique. II demeure, au contraire, parmi les tern^ s 
scientifiques gSn^raux. 

Prenons, par exemple, le cas de "touches num6riques" dont les deux ^16ments font partie 
du vocabulaire scientifique g6n6ral. Le terme entier demeure g6n6ral et applicable ft diff^rents 
domaines. La longueur du terme n'a done pas permis de determiner le degrd de sp6cificit6. 11 
en va de mfime pour des termes simples qui ne sont pas assez g^n^raux pour se situer dans le 
premier groupe. Nous pensous aux termes tels que "bit", "octet", "formatage", etc. 

Voici les entires qui nous ont paru, mieux que la longueur, indiquer le deare 
de specific it6 : 

Dans le cas d'un terme simple, si ce terme est general et commun ^ plusieurs sciences, on 
lui attribue le degrd de specificity I, correspondant d la classe du vocabulaire scientifique general 
(ex.: "copie"). Si, par contre, le terme est sp^cifique d un domaine, en I'occurrence Tinformatique, 
on consid6re qu'il fait partie du vocabulaire semi-specifique, dont le degre de sp^ci icite est 2 
(ex.: "disquette"). 

Pour un terme compose, il faut d'abord distinguer l'616ment specifie du ou des elements 
qui le specif ient. Cela fait, trois situations peuvent se presenter : les deux premieres se 
produisent lorsque le mot specifie reieve du vocabulaire scientifique general. I>ans le premier cas, 
reiement qui specific appartient egalement & cette categorie. Nous avons d6ja donne I'exemple 
de "touches numeriques", ou le terme compose avec deux elements de degre 1 porte lui aussi le 
degre de specif icite 1. L'autre cas est celui oO le mot qui specific appartient au vocabulaire semi- 
specifique tandis que Tautre est general (ex.: "copie de disquette"). Le terme compose se verra 
alors attribuer le degre 2, correspondant au vocabulaire semi-specifique. 

Enfin, la troisieme situation prend en compte les mots specifies qui appartiennent d un 
domaine specialise. Les mots composes ^ partir de tels elements portent le degre de specif-cite 
3, correspondant au vocabulaire technique de Descamps et Phal, car il y a specification d'un terme 
dejft specialise (exemple : "disquette simple face"). Le nombre d'eiements dans un terms de degre 
3 n'est pas limite. En voici un exemple : 



"Valeur de d^placement h«xsd*«imale". La partie "valeur de d^plscement" se compose 
d'un «l«m«nt de degrt 1 ("valeur") spAcifi* par un 6l«ment de degr* 3 ("d .icement" 
au (lenB utilise sp^ciflquement en infomiatique). Cette partie consti mc un 
6l6ment de degr^ 2, qui grimpe au degri suivant lorsque sp^ifi6e p. lAmcnt 
"hexad<Scimale" . 



1.2 Variables contextuelles 
1.2.1 Definition 

La presence d'une definition dans le contexte entourant un terme diminue sans contredit 
la difficulte de comprehension. L'evaluation de cette variable consislerait done, pour chaque 
occurrence, d dire s'il y a ou non presence d'une definition. 
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Cependant, lorsqu'une occurrence d'un terme est definie, la comprehension de toutes les 
occurrences suivantes est Hit6e, et non pas seulement celle de cette occurrence. Done, 
lorsqu'un terme a €xt d^fini ^ellque part dans le texte, il faut consid^rer comme d^finies toutes 
les occurrences suivantes. 



1.2.2 Illustration 

Un illustration peut, dans bien des cas, eclairer le lecteur sur le sens du terme illustr^. 
Cette variable, comme la variable definition, peut prendre deux valeurs, selon qu'il y a presence 
ou non de T^lement contextuel explicatif, en Toccurrence une illustration. 

De mdme que pour la definition, la presence d'une illustration accompagnant une 
occurrence d'un terme facilitera la comprehension des occurrences suivantes. Celles-ci seront 
done consid^r^es comme illustr^es, m^me si Tillustration n'est pas r6pet6e. 



1.2.3 Synonyme 

La presence d'un synonyme peut aider k la comprehension d'un terme, quoique ce ne soil 
pas toujours le cas. En fait, un synonyme agit parfois comme une definition. Dans ce cas, il 
facilite la comprehension et peut etre considere comme un critere d'evaluation de la difficulte. 

Par exemple, dans notrc corpus, "disque dur" a pour synonyme "disque fixe*. Le premier 
terme est le plus utilise mais le second est plus facilement comprehensible. Le fait de donner ce 
synonyme 4 "disque dur" facilite sa comprehension. ''Disque fixe*^ est done consider^ comme un 
synonyme 4 valeur de definition. Les synonymes ''premiere disquette** et "disquette originate" 
agissent de la mdme fafon aupres de **disquette source". 

Lorsqu'une occurrence d'un terme est accompagn6e d'un synonyme t valeur de definition, 
la presence de ce synonyme sera enregistree pour cette occurrence et toutes les occurrences 
suivantes. 



1.2.4 Exemple 

La presentation d'un exemple dans un texte aide d la comprehension du terme concerne 
dans le contexte sp6cifique de cette occurrence. Des occurrences differentes peuvent necessiter 
des exemples differents selon le contexte. 

Ainsi, la commande ''copy** s'utilise de differentes fa^ons et des exemples distincts 
accompagnent certaines occurrences de ce mot. D^autres types d*utilisation de cette commande ne 
sont pas presentes avec un exemple. 

Par consequent, la presence d*un exemple aupres d*une occurrence n'entrainera pas 
Tenregistrement de cet exemple pour d*autres occurrences du terme considere. 



2. CONCLUSION 

Ces differentes variables appliquees aux termes du corpus etudie, feront Tobjet d*une 
analyse de type regression ''sterwise" qui permettra de determiner leur influence relative sur la 
difficulte de comprehension. 

Quels que soient les resultats de cette analyse, il demeure certain que la difficulte de 
comprehension du vocabulaire est un facteur important dans la comprehension generale d'un texte 
et qu'elle merite qu'on s'y attarde. 
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Le phdnomene de la productivitd lexicale est peu eiudie. D'wte pan, les 
lexicographes doivent se contemer. d'un dictionnaire h iautre. de rimir les unites 
lexicales attest^es sans pouvoir en assurer une certaine "homog^n^it^". Par exemple. 
la derniere edition du Grand Robert a I'entrie SURDIMENSIONNER mais na pa's 
SOUS( -)DIMENSIONNER. D'autre part, Vexamen par les linguistes descriptivistes 
d'unitis lexicales non attesties n'est pas courant. 

L'dtude du materiel virtuel disponible prisenie un grand intir^t dans le cadre 
de la constitution puis de la consultation de dictionnaires ^lectroniques. Ce tvpe de 
dictionnaire dont iune des caract^ristiques est de prdtendre a la plus grande 
exhaust inti suppose une reddfinition des rapports h la nor me et entralne Vexamen 
inedit de nombreux paradigmes lexical x. 

En prenant comme base de donndes la classe verbale des entries du DEL AS (un 
dictionnaire Hectronique de LADL), nous proposons dans cet exposd un inventaire 
des processus productifs de la formation des unites lexicales de cette classe. Nous 
vcrrons ensuite des r ydeles fondamentaux pour la formation de nouvelles unites 
bien formees mais non attesties dans les ouvrages lexicographiques connus. 
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!• INTRODUCTION 

Dans la perspective d'un traitement automatsque, les phrases suivantes (1-4) devraient dtre 
reconnues comme franfaises: 

(1) Max n'arr^le pas tie barber Pierre 

(2) Luc accote Simon aux tehees 

(3) Paul a pris me hrosse toute la nuit 

(4) Guy ne se laisse pas piler sur les pieds 



aussi bien que (5-8): 

(5) Le spectacle barbe Pierre 

(6) I uc ne me re met pas 

(7) I'aul en a pris une. de cUi.c 

(8) Guy se fait un sang d'encre 



•La recherche sur le ''Lexique-Gramm&ire du frangaia du Quebec* b^nifjcie d'une subvention du Conseil de Recherche en 
Sciences Humainee du Canada {n^ 410-95-1382) 



ERIC 



129 



Jacques Labeile 



L*analyse de ccs sequences donne des r^ultats diff6rents, sur le olan de facceotabiiit^ 
selon que les tests sont effectu^s par un linguiste parisien ou qu6b^is Lcs pS f 4) 
pourront g^n^rer des ou "?•'•; le linguiste qu6Mcois accolera le symM? aux s'^Tences (5 
t\Pj^ cherchera une analyse pour (6) et (8) en se demandant, par exemple, si sang d'tncre n'es 
pas un nom compos6, un mot technique. II est bien connu que le travail du linguiste s'appuie su 
I intuition sur sa connaissance implicite de la langue. Comment pourr :t-il, autrement verifier 
r^jTZt^-^V" differences de sens? Cest cet aspect du travai. d'aialyse (indispensaWe 
pour 1 Identification et la caract6risation des phrases 616mentaires) qui entre en jeu lorsque nous 
f ?m™I^' par exemple. des definitions (ou mieux, des approximations) s^mantiques; notons entre 
guillemets ^es approximations simantiques" pour les exemples (1-8): 



(r)"Max n'arr^te pas de provoquer Pierre" 

(2') "Luc est aussi bon que Simon aux 6checs" 

(3') "Paul a pris un coup toute la nuit" 

(4') "Guy ne se laisse pas marcher sur les pieds" 

(5')"Le spectacle ennuie Pierre" 

(6') "Luc ne me replace pas (dans sa mdmoire)" 

(7') "Paul a pris un coup" 

(8') "Guy se fait du souci" 

U faut comprendre que les Equivalents s^mantiques sont 6ventueHement trds nombreux et 
qu aucun critdre formel ne permet de choisir la meilleure Equivalence; c'est le probldme de la 
synonymie, II est entendu que cette perception intuitive de sens ou mieux, de difference 
semantique entre deux phrases simples, doit etre prolongee par au moins une difference 
observable, formelle; nous reviendrons sur ce point en 2. 

L'experience qui ^ con .iste verifier I'acceptabilitE d'une phrase doit done Etre 
faite par un linguiste de la variEtE & dEcrire. On a eu trop souvent tendance ^ 
negliger cette importante cordition expErimentale. L'astErisque devant une phrase devrait Etre 
prEcisE par une indication de la variEtE oii ont EtE faites les vErifications. Dans le cas qui nous 
occupe ici, nous utiliserons le symbole Q pour fran^ais du QuEbec et F pour francais normE 
Ainsi, des phrases comme (2) et (5) ne seront pas affublEes de symboles ou "'>♦" mais 
marquEes selon la variEtE, c^mme: * ' 

(2a) (Q) Luc accote Simon aux echecs 

(5a) (F) Le spectacle barbe Pierre 

Ainsi, la formalisation en vue de I'Etablissement d'un lexique-grammaire (LG) du francais 
et de son traitement automatique en est de beaucoup facilitEe et amEliorEe. Le LG s'appuie sur 

u^^^'^lff ' .exhaustivitE (M. Gross, 1975), c'est-dire sur la description de I'ensemble des 
phrases ElEmentaires du francais (et des mEcanismes de mise en relation des phrases); ce LG doit 
par consequent, inclure le francais du QuEbec^ (ainsi que d'autres variEtEs de francais), ce qui 
imphque^un niveau de description tout aussi complet et detaillE pour ce "francais" que pour le 

francais: mEtropolitam. Nous montrerons ici que ce travail n'est pas simple et qu'il exige une 
technique d autant plus prEcise que Pobjet k dEcrire (Q) n'est pas habituellement percu comme 
distinct de Tobjet (F) traditionnellement EtudiE. 
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Au d^partement de linguistique de I'universit^ du Quebec k Montr6aI, le Groupe de 
Recherche sur la Formalisation Linguistique (GRFL) se consacre actuellement d. Tdlaboration de 
descriptions linguistiqucs syst6matiques du fran^ais du Quebec, utilisables par un ordinateur. La 
perpective de ces travaux est celle du LADL (Laboratoire d'Automatique Documentaire et 
Linguistique, CNRS, France). 



2. DESCRIPTION DE PHRASES SIMPLES 

Les dictionnaires d'usage courant donnent pour chaque mot un certain nombre de "sens" 
servant d distinguer les divers cmplois de ce mot; mais ces distinctions, faites essentiellement sur 
une base intuitive et non systematique, sont destinies d. I'usager ayant d^jft une bonne connais- 
sance de la langue et ne sont pas utilisables, comme telles, dans un systdme automatique (cf. M. 
Gross, conference d'ouverture). La procedure du LG consiste h s6parer (sur une base extensive) 
et formaliser les phrases simples, c'est-dire les unites lexico-syntaxiques nucl6aircs. 

Nos travaux h Montreal donnent priority k I'examen des elements lexicaux op^rateurs de 
phrases, en particulier les verbes & compl6tive(s) (cf. A. Blanger 1987, 1988) ou sans completive, 
les constructions k verbes supports (cf. F. Caviola et L. Grou 1988) et les expressions fig6es (cf. 
J. Labelle 1988a, 1988b). Nous illustrerons ici ce programme k partir de verbes et d'expressions 
figees (EF). 



2.1 Les verbfs 

Pour r6aliser une bonne couverture lexicale, nous utilisons plusieurs r.ioyens: 

■ le depouillement direct de corpus existants en fran^ais du Quebec (par ex. le corpus 
Bibeau-Dugas 1964); 

■ le depouillement de dictionnaires ou glossaires du fran^ais du Quebec (par exemple, 
le Glossaire de 1937 et le dictionnaire Plus de 1988); 

■ la cueillette d'eiements lexicaux provenant des membres du groupe. 



II faut souligner que nous avons beneficie d'une liste de verbes du TLFQ,^ laquelle a 
beaucoup contribu6 k completer nos listes. 

Nous avons vu, k propos des exemples (1-8), que tous les verbes F doivent etre examines 
en detail, ainsi que les entrees lexicalement distinctes comme (Q)achaler, canter, enfarger, etc., 
puisque leurs emplois syntaxiques risquent fort de differer. Nous n'avons pas une idee precise de 
I'ampleur de ce phenomene, encore peu explore. Prenons Texemple du verbe accoter qui a deux 
entrees dans le Petit Robert (dont une difficilement interpretable, parce que sans exemple) et sept 
dans le dictionnaire Plus. Nous reprenons les diffrents emplois de ce verbe en les motivant de 
la fafon suivante: chaque entree (=emploi) doit correspondre k une interpretation distincte 
(intuition s6mantique) et etre marquee formellement: 



Noufl tenons & remercier I**quipe du Trteor de ia Langue FranfaiM du Quebec, en particulier M. Claude Poiner, directeur 
du projet, pour eon aimable coilaboratton. 
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0) NOV Nl Loc N2 

{Q)Luc accote V^chelle (contre + 5«r + ...) le mur 
«= L'^chelle accote (contre + sur + ,.,) le mur 

(2) m V Nl Prip N2 

(Q) Luc accote Simon aux tehees 

■= Luc et Simon s'accotent aux tehees 

oft Loc f contre, pres de ou le verbe signifie appro .mativement "etre aussi bon 
Sm^triqu^*^''* ■*■ °" abstrait, contrairement & (i); notons que cet emploi est 

(Q) Luc s'accote avec Simon aux tehees 
o Simon s'accote avec Luc aux tehees 

(3) NO V Nl 

(Q) Le piquet accote la porte hrise 

= La porte est accote (avec + par) un piquet 

(4) NOV^: 

(Q) La porte accote ( deux places + sur le seuil ) 

different de (2) parce qu'elle ne peut en etre d^riv^e par relation de neutrality et k cause de 
I interpretation "la porte frotte". 

(5) NO V Nl ("Nhum) 

(Q) Les comMiens ont accote CUmence 

cet emploi (5) se distingue de (2) par le sens ("donner son appui d quelqu'un, encourager 
quelqu'un") et par rimposssbility de Temploi sym^trique en se V: ^ ^ ' " '^^^^ 

(Q) *Les comediens se sont accotds avec CUmence 
*Les comediens et CUmence se sont accot^s 

(6) NO se V avec Nl 

{Q)Jo s'est accotee avec un gars de Quebec 

("Jo vit en concubinage avec un gai. de Quebec") 

ou NO et AT/ sont des noms "humains", oii le complement Prep N2 =; dans ce domaine, sur ce point 
est mterdit et ou Pinterpretation est diff^rente de (2): 

(Q) *Jo s'est accotee avec un gars de Quebec sur ce point 

L'emploi (6) se demarque formellement de (2) par Pemploi adjectival suivant: 

NO itre (E + avec Nl) 
(6')(Q) Jo est accotee (E + avec un gars de Quebec) 
{2'){Q)*Lttc est accote avec Simon aux tehees 
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fi-^Tj donnons en annexe un extrait d*une table dp *rbes transitifs a complement "humain" 

(32H-Q) qui illustre le cas de figure (5), c'est-i-dire . construction transitive k complement 
humain. 

Certains verbes, F et Q, de champs s^mantiques voisins pr^sentent des difficultes de 
passage d une vari6t6 ft I'autre. Cest le cas de la phrase; 

\fax bar he Pierre 

bien form6e, en F et en Q; toutefois, en francais du Quebec, contrairement t F, Tinterpretation 
est active et synor.yme de "provoquer". Cette intuition semantique n'est toutefois pas suffisante 
pour marquer une separation nette des deux emplois; il convient d'appuyer formeller lent cette 
hypothese. II ressort de la paire suivante: 

(Q) *Le fait d'aller au concert bar he Pierre 
(F) Le fait d'aller au concert harbe Pierre 

que la mdme forme verbale, barber, a des comportements syntaxiques distincts en F et en Q et 
qu il s'agit bien 14 d'un fait observable. U en est ainsi de beaucoup de verbes comme: caler gdner 
nia:ser. planter, replacer dans des phrases comme: 

(F) *Luc a caU Paul lors de i'entrevue 
(Q) Luc a cali Paul lors de I'entrevue 

(F) La chaise gine Paul 
(Q) *La chaise gdne Paul 

(F) *Max me niaise 
(Q) Max me niaise 

ou les emplois de verbes ne permettent pas, dans Tune ou I'autre des varietes de franfais de 
conclure i la bonne formation de la sequence. D'autre part, on pourra, dans beaucoup de 'cas 
etabhr des equivalences de formes dans des constructions comme: 

Luc ne me (( F )remettait ■¥ (Q)replagait ) pas 

oil I'on remarque, dans les deux cas, I'emploi metaphorique et la possibilite d'un complement 
abstrait (o'J psychologique) du type dans sa tete, dans sa mcmoire. 



2,2 Une classe de verbes 

La table 32H-Q^ illustre quelques proprietes de constructions. Cette classe de verbes a un 
caractere residuel et ne constitue pas un objet syntaxique specialement interessant; mais, a cause 
de sa simplicite, elle est particulierement designee pour mettre en relief quelques variantes. 



3 

tt> code d« la table de conntructions est celui du LADL et le Buffixc, ajout« par nous, indique la vari6t<! linguistique. 
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™«M ^'"°«^P"^; grandes caract^risUques de la table 32H-F se retrouvent en Qr comme le 
comp 6ment direct, le sujet est trts g6n6ralement de type "humain". ce qui doi.afl Ma classe un 
^?u«rH '.Tf-"^ distributionnclle. Elle contient ^galement deix type, de complements qu" 
ont une distribution peu remarquable par rapport k F: ce sont ceux qui correspondent a la 
question de combienl et le compl6ment sur ce point. wrresponoent a ia 

(Q) Le marchand a fourri Luc de deux piastres 
(Q) Pierre a niais^ Luc sur ce point 

ce- E!^*^ ^2H-Q se -distingue de F par la construction dite "neutre" et la 

suffixation adjectivale. Dans Boons. Guillet et Lecl^re (1976). il Vest signale qu'un seul emploi 

(F) Des voyous ont d^rouilU^ Paul 
Paul a dirouilU 

De notre cdt6, nous avons remarqu6 que plus 10% des verbes actuellement recens^s 
dans cette classe acceptent la relation de neutrality: 

(Q) Le professeur a could Max 
Max a coule 

(Q) Paul a plants Max 
Max a plants 

« Cette situation va dans le sens d'une intuition partag^e par quelques linguJ^tcs francais 
?i2.n ^Tui tendance, en francais du Quebec, a privil^gier la construction neutre 
no! i f f" ^ "''"U^ remarquer il y a plusieurs annees). Ce ph^nomene 

n est pas limits a la classe syntaxique 32H. Nous en avons donne un exemple a propos du verbe 
accoter, dans son emploi d deux complements, dont un locatif: 

(Q) Luc accote I'dchelle (contre + sur + ...) le mur 
= L'^chelle accote (contre ■¥ sur ^ ...) le mur 

Les tables de constructions F nous servent de point de ddpurt et de comparaison; mais nous 
ajoutons. au besom des propn6t6s du frangais du Quebec. Cest le cas, par exemple, de la 
derivation idjectivale en -eux: ^- , m 

NO itre V-eux 
(Q) Luc est baveux 
(Q) Luc est l&cheux 

ayant une relation avec: 

(Q) Luc have ( le monde + les gens ) 
(Q) Luc l&che ( le monde ^ les gens ) 

Dans certains cas. le complement peut etre du type "non humain"; 
(Q) Luc l&che ( les . ires ses entreprises ) 
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Le complement direct, r^gulidrement effac6 dans la structure adjectivale en -eux, est 
"g6n6rique" et correspond & Taspect "avoir Thabitude de'' comme dans ta sous-structure verbale 
correspondante: 

(Q) Luc boude 



pouvant recevoir les interpretations: 

{Q) Luc a I' habitude de bouder 



ou: 

(Q) Luc boude Marie 



II faut noter que le suff ixe -eux n*est pas automatiquement commutable avec -cur et que, 
malgrd une certaine productivity, il n'est pas pr^dictible: 

(Q) Luc est (bosseux -f bosseur) 
(Q) Luc est ( barbeux + ^barbeur) 
(Q) Luc est (^crouseux + crouseur) 



L'af*;ectif niaiscux n'est pas reli6 d la structure 32H, ce qui explique le sfgne dans la 
colonne V-eux: 

(Q) Luc est niaiseux 

TLuc est 2{tupide, maladroit, .,.") 

= Luc niaise 

(Xuc perd son temps") 

^ Luc niaise Paul 

("Luc agace PauP) 



2.3 Un exemple de forme compos^e: CPl-Q 

Depuis quelques ann^es, nous avons ctabli des inventaires de constructions fig6es; mais, 
dans ce domaine, les listes 6tant partjculidrement pau/res, il nous a fallu fournir des efforts 
particuliers dans b cueillette des donn6es. Dans un premier temps, nous disposions 
d^environ 10 000 EF, de type verbal en grande majority, que nous avons class6es sur le modele 
de M. Gross (1982) et que nous avons ramen^es d environ 4 000 aprds 6tude comparative des 
lexiques F et Q, en 1986-87.^ Mais il reste, comme pour les verbes, h revoir systmatiquement 
toutes les EF du LADL et & exaniiner leurs interpretations et propriety de constructions: 
les resultats sont tout aussi impr6\ isibles que pour les verbes, puisque TEF est en fait une entree 
lexicale composee, appartenant des categories syntaxiques varices: verbes, adjectifs, 
adverbes, noms (G. Gross 1988), rappelons Texemplc avoir du chien, dans: 

(Q) Ce petit enfant a du chien 



De nouvelles EF continuent r^gult^rement h s'ajouter k la banque de donn^ qui en conlieni environ 6 000 aclueilemcnt. 
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?cij!!"^''if "° ® ®* de surprise Chez les locuteurs parisiens pour la bonne raison qu'il signifJe 
^^nt^Zl^n.'^X^^^^^ comparaison d6tr.;il6e des propri^ti de 

constructions et a donn6 le r^sultat su.vant, impr^visible au d^pait: la d stnbution des propri6t6s 

fX?,SfiS??;..^f'^"^'t'* vue identique en F et en Q, s'avere differente et donne des bases 
tormelles aux deux interpretations: 

(Q) Luc a eu le chien de lui r^pondre cela 
(F) ♦lur a eu le chien de lui r^potn. cela 

Les structures d6riv6es d'EF peuvent 6clairer certains emplois de verbes et 
vice-versa. Ainst ^ ^ 

(Q) Paul ambitionne sur le pain hdni 
("Paul exagdre") 

a la sous-structure: 

(Q) Paul ambitionne 



de m£nie sens 
comme 



le sens. le verbe simple ambitionner a un emploi intransitif tout & fait Equivalent 
dans rexeraple suivant, a rimp^ratif; 

(Q) Paul, ambitionne pas! 



qui semble plus prds de I'EF que du verbe (Q) ambitionner sur: 
(Q) Paul ambitionne sur Marie 

au sens de "Paul abuse de Marie". Plusieurs exemples de sous-structures sent consid^r^es dans ce 
Ubres ^""^''^^ permettent de mettre en lumiere le lien 6troit qui lie structures figees et 

La classe CPl-Q mise en annexe se caract^rise par le fait que les phrases elementaires 
qu eile d^cnt sont du type: 

NO V Pr^p CI 

Jo s'enfarge dans h s fleurs du tapis 
CJo se perd dans les details") 



3. COMPARAISONS ET TRANSFERTS 

Ces 6tudes de lexique-grammaire du fran?ais du Quebec conduisent i des comparaisons 
syst6matiques F-Q et i des applications & Tordinateur comme la documentation autoir^tique ou 
les transferts automatiques F-Q (L. Danlos, 1988). Dans un cas ou dans Pautre, il est indispensable 
de disposer d une information linguistique formalis^e dans le detail et tenant compie des 
nombreuses differences variationnelles, malheureusement trop souvent Iaiss6es pour compte Pour 
proceder a des transferts automatiques F-Q, il faudra disposer d'informations completes sur les 
phrases eiementaires, figees ou libres, et de mecanismes de mise en equivalence 
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3.1 £quiv ilences lexicales 

Dam le cas des Equivalences lexicales, on consid6rera que les phrases Elementaires Fl et 
Ql sont en relation d'Equivalence parce qu*eUes offrent un profil de propri^t^s syntaxiques 
identiques et qu^elles ont 6t6 jug6es s^mantiquement sembiables, c*est-dire pouvant apparaltre 
dans les m^mes contextes: 

Fl: Luc a pris une pelle 
^ Ql: Luc a pns une fouille 

alon que F2 et Q2 ne pourront etre dans une telle relation, malgre leur identite lexicale: 

F2: Luc a du chien 
^ Q2: Luc a du chien 

Le glossaire d'6quivalences des EF devra reprisenter formellement les 616ments lexicaux, 
en fonction de leur appartenance ^ telle classe de constructions (et done un profil pr6cis de 
propri6t6s syntaxiques) et fournir les indications lexicales permettant de passer de Tune k Tautre 
vari6t6. 



3.2 ilquUalences syntaxiques 

Rappelons une rdgle syntaxique qu'il est n6cessaire de completer par une r^gle de transfert 
F"Q: le d^tachement. 

Cette regie transformationnelle (M, Gross 1968) detache le groupe nominal, ou une partie 
de ce groupe, apres pronominalisation. 

Luc a coule (Max + le pro jet de Max) 
[d^tachement] 

= Luc ^ a a couU ( Max le pro jet de Max) 
[d^tachement] 

Luc Va coule # (Max + le pro jet de Max) 



II n*y a aucune difference F-Q & noter, qu'il s'agisse de NO ou de NL Mais certains 
determinants, indefinis et numeraux, entrainent des comportements differents; avec le ppv en, 
Q efface la Prep =: de alors que F la conserve. Comparons, dans les mfime conditions transforma- 
tionnelles de [detachement], des phrases construites sur des verbes lexicalement equivalents: 

{Q)Luc a harhe (un -f plusieurs) eleve (s) 
[detachement] 

« {Q)Luc en a harhe (un plusieurs) # ^£ + *de) eleve(s) 

(F) Luc a chine (un + plusieurs) ele'^e(s) 
[detachement] 

« (F) Luc en a chine (un ^ plusieurs) # (*E + de) eleve(s) 

C<* phenomene de detachement, en franjais Ju Quebec, n*exclut pas la liaison la "pause- 
intonation** entre !e determinant au masculin singulier et le nom detach^: 

(Q) Max en a harhe un # eleve 
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de doit «re di«ingu« d'autres cas, coS cillifdis^jlcUfs: " " '^"^ 

(Q) iuc u plusieurs foulards: des mirs et des Manes 
Luc en a plusieurs # (*noirs + de noirs ) 



(Q) Lt4C a plusieurs foulards noirs 

« Luc en a plusieurs # ('«oi>j *de noirs ) 

I'ensemble ^^ToullXnoif."'^^ pr6c6dent, I'ensemble des "foulards" est identique 4 

I«c fl beaucoup de foulards noirs 

Luc en a beaucoup # (*noirs + de noirs + de foulards noirs) 
3.3 ^quivaleaces non formeiles 



(Q) (F) 

// y a rien la! Ca mange pas de pain! 

Luc a frappe un noeud Luc est tomhe sur un os 

Max s'enfarge dans les fleurs Max se perd dans les details 
ciu tapis 

Luc a le feu au passage Luc est en colere 

Jo a dejH vu neiger jo n est pas tomhe de la dermi-re pluie 

etc. 

coup parcrp.""""™ =»'"P'™»"'^"^- P^^"1"e. qui fait appel a la -traduction- des expressions, 

n,«m. 1' «"« Of 1« phrases simples ne peuvent pas recevoir d'^auivalent 
ae traduction. Doit-on mettre en correspondence une expression comme pariie de .lucre avec une 
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I>^riph£rase (F ou FQ) ou emprunter I'EF comme telle, comme on le ferait avec une langue 
6trang6re? La premiere solution est probablement ia meilleure... Mais cette question ddborde les 
cadres et objectifs de notre propos. 

Terminons par une indication, bien imparfaite, sur la situation comparative comme elle 
nous apparaSt en ce d6but de recherche. La comparaison des tables F et Q a donn6, dans Titat 
actuel des travaux, quelques r^sultats chiffr6s partiels que nous pr^ciserons dans la poursuite des 
travaux et qui n'ont encore qu'une valeur trfes approximative. Dans les tables de verbes et d'EF 
examinees jusqu*ft present, Tintersection FQ (c'est-ft-dire le fond linguistique commun ^ F et a 
Q), en termes d'iquivalences lexico-syntaxiques, repr6sente pr6s de 80% des phrases examinees 
jusqu'ici. Est-ce une tendance significative? Nous n'avons, a I'heure actuelle, au:un moyen d'en 
decider. 



4. CONCLUSION 

Nous avons voulu illustrer ici une m^thode de description formaiis^e qui, dans le cas du 
fran^ais d>* Quebec, pent revfitir une grande 1 nportunce, puisqu'elle prdcdde et conditionne le 
traitement automatique qui s'en suivra. 

Le fait d*introduire le lexique-grammp.ire du fran^ais du Quebec dans une importante 
banque de donn^es formalis6es du fran^ais, et cela dfes le depart, signifie, & notre avis, prendre 
le train quand il passe ( ou ne pas rater le coche); cela signifie participer activement au virage 
technologique qui s'amorce dans notre discipline. 

l/elatoration d'un lexique-grammaire du fran^ais du Quebec, en vue de son integration 
progressive au LG gendral du fran^ais, vise ausss une meilleure connaissance du fran^ais et du 
concept mfime de langue et de vaii6t6 de langue. 
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Le systSme FRANA est un logiciel qui g6n6re, de fafon entiferement automatique, des 
rapports portant sur Tactivitd boursi^re de New York. Dans Contant (1985) et Contant (1988), 
noi'S d6crivons les caractdristiques du sous-langage boursier que nous avons observ^es par I'dtude 
d'un corpus compost de 119 rapports publics dans des journaun francophones. Dans ce present 
article, nous nous attarderons plutCt h d6crire le systfeme de generation en soi. 

L'outil utilise pour la programmation de FRANA est le langage de production OPS- 5 
(Forgy 1981). Par la suite, Sylvie Giroux, Evelyne Millien et Michel Boyer de TUniversite de 
Montreal Tont r66crit en PROLOG, am^Iiorant ainsi la vitesse de redaction en passant de quelques 
minutes k quelques secondes pour un texte de 3 paragraphes. 

Le traitement linguistique dans FRANA se fait § un macro-niveau, cVst-i-dire qu'on 
combine des syntagmes (cx: SN + Verbe + SP) pour constituer des propositions qui, ^ leur tour, 
se combinent en phrases. Une phrase peut contenir 1 ^ 3 propositions, chaque proposition 
refietant un « message ^ exprimer ». Malg.e ce traitement au niveau syntagraatique, certains 
accords demeurent n^cessaires: I'accord du verbe avec son sujet, Taccord des participcs pass6s, 
Taccord des adjectifs attributs, et celui des adjectifs possessifs qui sont i I'interieur du 
complement mais qui doivent s'accorder avec le sujet. 

Le systeme FRANA a ete eiabore k la suite des travaux de ICaren Kukich (1983) qui a 
congu le rysteme initial ANA, qui genere des rapports boursiers anglais. ANA est constitue de 
quatre modules independants mais sequentiels. Le premier module est un generateur de fails ecrit 
en langage C qui prend pour entree les donnees numeriques de la bourse de New-York et qui les 
transforme en une serie de faits sous forme de banque traitable par OPS-5 



Le deuxieme module est ecrit en OPS-5 et prend pour entree la banque de donnees sortant 
du module 1 et decide quoi dire ft partir de ces faits. Cest la semanticjiue du systeme. A I'aide 
de ses 142 regies de productions (de type SI -> ALORS), le module 2 produit une dizaine de 
messages d exprimer. 



Ces messages sont ensuite envoyes au module 3. Ce module s'occupe de rorgsnisation du 
discours et choisit I'ordre dans lequel les messages seront exprimes. 



Enfin un quatrieme module, le module linguistique, procede aux choix lexicaux (ou plutOt 
syntagmatiques) et aux choix des formes syntaxiques. II fait ensuite les accords et imprime le 
texte. Le module 2 a done decide QUOI dire, le module 3 QUAND le dire et le module 4 
COMMENT le dire. Le module 4 de K. Kukich contient 1 10 regies de production et 450 entrees 
syntagmatiques anglaises. 



Etant donnee la modularite de ce systeme initial anglais, nous avons decide de real'ser un 
module linguistique fran^ais pouvant se substituer at module 4 de ANA, donnant ainsi naissance 
^ un generateur de rapports boursiers franyais: FRANA, Puisque les deux systemes ont une partie 
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commune (Ics trois premiers modules), le contenu s^mantique des rapports boursiers francais et 
anglais est identique et, de ce fait, les textes g6n6rds v6hiculent ia mdme information dans les deux 
langues. Mais ces textes sont ind^pendants au niveau des choix syntaxiqves et lexicaux II ne 
s agit done pas de traduction mais de g6n6ration bilingue. Le module linguistique fran?ais contient 
143 regies, 371 entries syntagmatiques et une table de conjugaison de 75 verbes. 



Voyons d'abord un exempie de message s6mantique qui sert d'entr^e au quatri^me module: 

(make message ^pry 2 ^repdate 04/20 ^top GENMKT 
^subtop MKTSTAT ^subjclass MKT ^dir up ^deg great 
'^tim close ^sco broad) 



qui pourrait s'exprimer sous la forme: « le march6 des valeurs boursieres a cl6tur6 en 
forte hausse ». 

Voyons maintenant un exemple de rapport boursier r6dig6 par FRANA, puis nous 
expliquerons quelques 6tapes qui nous permettent de parser de Tenti^e du module 4 (messages) a 
la sortie (texte). ^ » » 



Rapport boursier 

Jeudi, 1« 21 avril 1983 

le marcM d«a actioiu est d«ineurd soutenu tout au long de ]b jount4« hier, & Wall 
Street, od lea titrea ont termi but une forte hauaee. L'activit* a 6ti Wbrile. 

apria avoir enregiatr^ son plua gro« gain en fin d'apriB-midl, I'indice Dow Jones des 
mdustrieilee a cldturtf ave«. une avance de 16,93 points, & 1191.47. I'indice dm 
transports s'eet «tabli h S31.63, en hausse de 6.1V points et celui des services publics 
a inscrit tin gain de 1.44 points, h 138.05. 

lo volume a 4tt de 110.2 millions d'actions «chang«e8 au regard de 91.2 millions le 
jour pr6c*d«nt, alora que Iw titres h la hausse enterraient ceux 4 la baiese par 1176 
centre 499. 



Les principales 6tapes de la redaction d'une proposition sont les suivantes: choisir un 
pr^dicat (verbe + complement) associe & un message h exprimer; choisir la forme syntaxique 
a utiltser; choisir le sujet du pr6dicat; proc6der a la conjugaison du verbe et aux 
accords morphologiques s'll y a lieu; ecrire la proposition. Autour de ces 6tapes gravite un bon 
nombre d'ei6ments de contrdle qui v6rifient la pertinence de mettre une vJrgule ou un point, de 
changer de paragraphe, d'alterner entre phrases longu s et phrases courtes, d'ins6rer un syntaime 
adverbial, etc.. 

La premiere etape consiste done a choisir un pr^dicat associe 4 un message i exprimer. 
Voici un exemple d*entree syntagmatique predicative. 

(make phraselex ^ptype pred ^top DOW ^subtop DOWPT ^subiclass 
DOW 

^classespec DOW ^vardeg x *subsubtop FIRST ^len 15 ^rand 10 
^dir up *deg great ^tim first 
''verbe enregistrer ^sppre 1 

^predrem une avance de plus de <x> points en tout debut de seance) 
(make sppre ^cie 1 ^terme en hausse de <x> points a Touverture 
^len 9) 



F/g/I'M; Logiciel de giniration de textes 
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On remarque dans cette entrde plusieurs attributs s^mantiques correspondant h la 
signification de ce pr6dicat (topique, direction, degr6...). Ce sont ces attributs qui doivent 
correspondre avec ceux du message s^mantique a exprimer. Lorsque diff^rentes expressions 
synonymes sont disponibles, un choix est fait au hasard mais la probabilitd pour une entree d'etre 
choisie depend aussi de sa fr6quence d*utilisation (basde sur T^tude de notre corpus). 

L'^iape suivante permet de choisir la forme syntaxique d utiliser. Celle-ci depend entre 
autres de r^tat du syst^me (ex: est-il au d6but d'unc phrase ou a-t-il d6ja r^dig6 une premiere 
proposition?). Par d^faut, tout pr6dicat peut s'exprimer en ur^ phrase simple (proposition 
ind^pendante). Mais il existe d'autres formes syntaxiques disponibles. Parfois, un verbe et son 
complement peuvent etre remplac6s par un syntagme pr^positionne! ou adjectival. Dans Tentr^e 
predicative ci-haut, on constate que Tutilisation d'un syntagme pr^positionnel « en hausse de x 
points & Touverture, Tindice,.. » pourraii remplacer la proposition ind^pendante « Tindice a 
enregistr6 une avance de plus de x points en tout d6but de stance » si tel 6tait le choix 
syntaxique du systfeme. Voici la liste des choix syntaxiques possibles dans FRANA: 

Varlantes avec le verbe 

1^ Phrase simple (ind^pendante ou principale) 
ex: le march6 a cloture 4 la baisse 



2- Proposition coordonn^e (et - mais) 

ex: ... et (mais) le march6 a cldture ^ la baisse. 



3- Subordonn^e (alors que - tandis que) 

ex: ... alors que (tandis que) le marche cl^iturait k h baisse. 

4- Complement de temps 

a) antepose ex: apres avoir connu une baisse, le marche... 

b) postpose ex: avant de connaitre une forte baisse en apres-midi 

5- Infinitive avec POUR 

ex: ... pour cldturer en hausse marquee 



6- Relative avec OU 

ex: a la Bourse de New York, ou Pactivltc a eie moderee. 



Variantes sans le verbe 

7- Syntagmes prepositionnels 

a) ant6pos6 ex: en baisse i Touverture, ... 

b) postpose ex: 4 Tissue d*une seance mouvementee. 

8" Nominalisation avec preposition 

ex: apres un grand mouvement de baisse initial, 

9- Epithete dttv/^.^e 

ex: faible ^ Touverture, ... 
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Autres 

10- Adverbes 

ex: Au total, ... 

En fin de journ6e, ... 

... hier k la Bourse de New York. 

nr^H;^,^T maintenant t I'^tape qui consiste k choisir un sujet oour accompagner notre 
predi<»t. Si par exemple 1 entree predicative demande la classe sujet (subjclass) DOW alors il 
taut choisir parmi les entries syntagmatiques sujets celle qui est de la classe sujet DOW S'il v 
a plusieurs entries dbponibles, deux facteurs d^terminent le choix du systdrae: la frequence 
d utilisation observ6e dans notre corpus ainsi que le niveau d'hyponymie. Plus on avance dans la 
redaction du texte moms on a & utiliser des termes sp^cifiques concernant le sujet du discours. 
Voici un exemple d'entr6e sujet 

(make phraselex ^ptype subj ^top GENMKT ^subjclass MKT 
^classespec MAR ^subjterm le march6 new-yorkais 
^subjnumber sing ^subjgenre masc 
^rand 10 ^subjhypolev 3 ^len 6 ^usage 0) 



Les entr6es sujets sont des syntagmes nominaux et contiennent done des informations 
relatives au genre et au nombre de ceux-ci. Ces informations sont utiles pour coniuguer le verbe 
et pour accorder certains mots A I'int^rieur du reste du pr^dicat (predrem) lorsque n6cessaire. La 
conjugaisoti du verbe se fait & I'aide d'une i^ble de conjugaison en fonction du choix syntax ique 
qui ddtermme le temps du verbe (pa«£5 vompose, imparfait, infinitif present ou pass6), et en 
^® u" " 6galement de so.i genre lorsquMl y a presence d'un participe pass6 
conjugu6 avec le verbe « 6tre » (ex: s'est ou se sont redress^-e-s). Lorsque le verbe de Tentr^e 
predicative est un verbe d'6tat, certains mots attributs doivent etre accord^s avec le sujet Pour 
r6aliser cet accord nous avons dO ajcuter, dans le module franfais, des variables morphologiques 
fcn anglais, un tel probieme d accord ne se posait pas. Voici un exemple d'utilisation d'une 
variable morphologique: 

Pr^dicat: ^verbe demeurer 

"predrem <mot> tout au long de la journee 
"choixms irregulier *choixmp irr^gu- 
liers 

^choixfs irregulifere "choixfp irreguiieres 

Lors de I'impression, la variable <mot> sera remplac^e par la valeur approD'-iee en 
fonction du genre et du nombre du sujet, 

Revenons au choix du sujet. Lorsque la forme syntaxique « complement de temps 
antepose » ou « epithfete detachee » est choisie, le sujet n'apparait pas tout de suite en surface 
II ne sera expnme que dans la proposition suivante. 

Ex: Apres fitre demeur6(-e-s) en baisse toute la matinee, I'indice 

(la Bourse, les litres...) 
Ex: Faible(s) 4 I'ouverture, I'indice (les titres)... 

Pouriant, il faut faire des maintenant le choix du syntagme nominal sujet afi:. d'accorder 
le participe passe ou I'adjectif epithete. II faut d'abord s'assurer que ce syntagme nominal est 
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compatible avec la classe sujet de la prochaine proposition puisqu'il sera ^galement sujet de cette 
seconde proposition. De plus, il faut conserver cette entr6e sujet en m^moire car elle ne sera 
imprim^e que dans la seconde proposition. 

Inversement, lorsque FRAN A choisit la forme syntaxique ^infinitive avec POUR» ou 
«compl6ment de temps postpos^w, il faut s'assurer que le sujet de la propositir^n pr6c6dente est 
identique au sujet du pr6dicat actuel et ii faut mSme r6cup6rer Tinformation sur le genre et le 
nombre de cette entree sujet (ddji imprim^e) si on veut bien accorder les variables morphologi- 
ques. Cest ce que FRANA fait avec succ^s. Ex: «rindice a..., avant d'inscrire son meilleur 
gain». 

Nous conclurons en disant que ANA et FRANA sont des logiciels efficaces et entiferement 
automatisms, ne ndcessitant pas de revision humaine. Les rapports produits sont linguistiquement 
bien formds et d^crivent de fa?on coh^rente des faits reels. Les structures syntaxiques sont 
ad6quates et les termcs employes sont justes, refl^tant par leur frequence le style des textes 
redig^s manuellement. 

Ce rapport a 6t6 subventionn6 en partie par le CRSHC et par le Fonds F.C.A.R. Merci 
a Karen Kukich, Richard Kittredge, Guy Lapalme et Michel Boyer pour leur support respectif. 



147 



BiMSographie 



COKTAKT, Chantal (1988) « Calibration automatique de rapports boursiers fran^ais et anglais » 
dans Revue qu^bicoise de Itnguistique, vol. 17, no 1, Montrdal, p, 197-222. 

" (1985) G^niration automatique de texte: Application au sous-langage boursier francais 

mfemoire de maltrise, University de Montreal. 

CONTANT, Chantal et M.-H, GAUTHIER J983) Manipulation du corpus, grammaires de textes, 
paraphrases, projet de recherche sur les sous-langages. D6p?.rtement de linguistique et 
phiiologie, University de Montreal. 

DANLOS, Laurence (1985) G^niration automatique de textes en langues naturelles, Masson, 

Journal Le DEVOIR, rapport boursier dans les pages 6conomiques du 18 octobre 1983 au 10 
ddcembre 1983 (Bourses de New York, Toronto et Montreal). 

FORGY, C.L. (1981) OPS-5 User's manuel. Department of Computer Science, Carnegie-Mellon 
University. 

KITTREDGE, Richard (1982) "Variation and homogeneity of Sublanguages" dans Sublanguage: 
Studies of Language in Restricted Sem::.ttic Domains, Walter de Gruyter, p. 107-137, 

KUKICH, Karen (1983) Knowledged -based Report Generation: A Knowledge-Engeneering 
Approach to Natural Language Generation, thtse de Ph.D., Department of Information 
Science, University of Pittsburg. 



14b 



0. INTRODUCTION. 



Un coUoque consacr^ a « la description des langues naturelles en vue d'applications 
mformatiques » adresse une question sp6cifique a la th6orie et a la pratique du parsage syntaxique: 
le [ iobleme de la couverture des parseurs. Ce probldme Emerge, par ailleurs, sous le fait d'une 
pression externe: la demande de parseurs robustes liee au (projet de) d6veloppement d'interface 
grand public en langue naturelle. nu de divers types de traitement de donnees textuelles. Or, la 
thdorie et la pratique du parsage sl Aont d^veloppees « dans un cocon »: les parseurs de r6f6rence 
peuvent faire s'appuyer sur des theories syntaxiques sophistiqudes, mais ils ne s'attaquent g6n^ra- 
lement qu'4 quelques aspects de la langue ou des 6nonc6s, et sont appliques en miroir sur un 
corpus de phrases gen6ralement tiroes des articles de linguistique th^orique. Ou bien, ils sont 
d6velopp6s sur un langage restreint dans le cadre d'une application particulifere.* II est clair, dans 
1 etat actuel du domaine du parsage syntaxique, que Taccroissement de la couverture n'est pas un 
probl^me simplement quantitatif: accroitre le nombre de regies ou le nombre d'entrees lexicales 
dans le dictionnaire associe au parseur. Cest un probleme th^orique pour la linguistique et pour 
le parsage. 

J'admets la definition suivante de parsage syntaxique (je me limite au parsage syntaxique 
d'enonces Merits): parser consiste d reconnaitre dans une suite de mots (la sequence d'entree) des 
dispositions d'entit^s. Ces dispositions sont representees afin dVxhiber les propri6t6s structurales, 
positionnelles et interpr6tatives des entites reconnues et de leurs relations. Le nombre, la syntaxe 
et le v.ocabulaire des representations appariees aux suites d'entree (arborescence ou non, categorie 
monadique ou compos^e, utilisation d'indice ou non, ...) varient selon les theories syntaxiques. II 
est generalement admis maintenant, en linguistique et en intelligence artificielle, que les proprie- 
tes representees feraient la voie 4 I'interpretation de la sequence d'entree; oi; i minima, que les 
representations syntaxiques seront manipulables par des procedures intelligenus de traitement de 
donnees en langue naturelle. Un parseur syntaxique particulier dispose, done, en entree de deux 
donnees: (i) une suite de mots et (ii) un savoir syntaxique. II fournit en sortie une ou plusieurs 
representations. La couverture d'un parseur sera definic en fonction de son savoir syntaxique: 
plus ce savoir sera important en comprehension et en cnsion, plus nombreuses seront les enti- 
les et les dispositions d'entites qu'il pourra parser et plus expressives seront les representations 
qu'il en fournira. 

On reconnait dans des langues comme le fran^ais ou I'anglais la place centrale d'un type 
d'entite: le syntagme. La donnee est simpK • plusieurs unites lexicales formenr une unite (un tout) 
pour une regie ou pour un processus. Par excmple, dans la phrase La fille de la concierge e\t 



Ce travail H'mscnt dans le cadre du central de cooperation Franco qu^t>^cc,ii « Conception et applicatione d'un analyseur 
texico-^yntaxique du franjaie (AI.SF) » (Cntro d'ATO, UQAM et INal.F/I.ISH, CNRS) Jc retn*rcic la Commis- 
8ion Pvrmanente Kraiico-qudb^^coine pour i*- soutirn financier qu'elle apporte ft ce projet. 

*A la notable exception dee grammairtp en chaSnes, mime si Salkoff (1973, 1979) limite son entrepriee au 
dtscours scientifique. 
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wnue », .e sujet de la phrase (S) (du syntagme verbal (SV) ou du verbe, peu importe ici) est la 
ftUe de la concierge et non le nom fille pris iso!6ment (quel que soit la definition ou la place 
que 1 on donne & la notion de fonction et I'assignation des fonctions). La linguistique contempo- 
ratne s'est d^velopp^ sur une hypothSse (issue de la description distributionnelle): syntagmes et 
dispositions de syntagmes sont hi6rarchiquement organises, et sur une reprd^entation de cette 
hypothdse sous forme de configurations arborescentes 6tiquet6es de categories. Sur cette hypo- 
tWse s'est 61abor6e une mise en forme de la syntaxe permettant de gdn^rer entitds et configura- 
tions par des regies formellement identiques: des regies syntagmatiques. Or, ce meddle, qui sem- 
blait acquis, est en d6bat dans les d6veloppcments actuels des diff6rentes theories syntaxiques- la 
syntaxe d inspiration chomskyenne tend k reiimination des rdgles syntagmatiques, alors que la 
grammaire syntagmatique gen6ralis6e (GSG) revient au noyau de ddpart (pour me limiter a ces 
deux thrones). 



Les parseurs pouvaient etre dessin^s assez simplement dans la configuration de depart lis 
disposent en entree de deux donnees: 



■ (i) une suite de mots consideres sous Tangle de leur categorie grammaiicale, 

■ (ii) une grammaire syntagmatique, generalement augmentee afin de pouvoir traiter la 
structure de surface (en particulier, les ecarts entre structure de surface et structure profonde 
pour les parseurs se referant aux theories transformationnelles).' Un parseur peut, alors, etre 
defini comme un interprete qui applique des regies syntagmatiques sur les suites d'entVee pour les 
convertir en une representation arborescente etiquetee, et le parsage comme Tensemble des algo- 
rithmes ou des techniques reglant cette application. 



Je propose trois probiemes auxquels un parseur, expose au tout-venant des productions 
langagieres, sera immanquablement confronte. Au travers de leur description (necessairement 
partielle, je les considere comme prototypiques), je monirerai comment leur prise en corapte peut 
amener J modifier le dessin general de parseur expose en introduction. On verra qu'ils posent a 
chaque fois des probiemes de representation i la theorie syntaxique; plus precisement dans cet 
expose a la representation en termes de regies syntagmatiques. J'ai privilegie les regies syntagma- 
tiques dans le format X-oarre parce qu'etani les plus contramtes, elles permettent de poser les 
questions plus radicalement. 



1. INTRICmTION lexs le/syntagmatique 

Un parseur a couverture maximale va devoir reconnaitre et representer des entites sub- 
syntagmatiques: des suites de mots traitees par les regies syntagmatiques comme des unites Ce 
sent des unites lexicales polylexicales; a priori, elles devraient appartenir aussi bien aux categories 
majeures qu'aux categories mineures. 



, {i» pareeure sont construite sur I'intuition de.' linguietM et que Milncr «nonce ainsi & propos de <l | 'inutility des 
transformations »: « L'intuHion fondamentale n'a pas 6t« remise en cause: on suppose toujo rs qu'entre ia confi- 
guration imm*diatenwnt observable et la structure proprement linguistique, il peut y avoir discrepance, mais on 
ajoute que la configuration observable contient toujours les indicee ouffia^tB qui permettent de reotituar la struc- 
ture * (Milner, 19SSa .501. 



me foealise artiftciellentjei.t sur les rftgles dans cet exposd; je renvoie & Morin (sd) pour une defense et illustration des 
catigories compoo^es en theorie du parsage. 
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l.l. Exemples d^uolt^s po!ylexica9e$ mineures 

L a. Teau suintait de h fontaine. 
aV I/eau suintait de la fontaine. 

2. b. II I fait h peine de linguistique 
h\ II i fait beaucoup de linguistique. 

3. c. II fume dans les dix cigarettes par jour. 
c\ II fume eoviron dix cigarettes par jour, 

Un parseur doit pouvoir trailer les suites soulignees en (a, b et c) comme des unites struc- 
turalement ou fonctionnellement equivalentes aux unite? imples soulignees de (a\ b' et c'): des 
unites realisant la position de specifieur en (1) et (2); uk^ unite ''modtfiant" le numeral en (3)4. 

On ne pcut pas toujours effectuer independamment de Tanalyse syntaxique la reconnais- 
sance et le traitement de ces unites: il faut, en effet, leur assigner une identity categorielle qui ne 
decoule pas de la composition des traits des unites qui les composent: ni h ni peine pris isol6ment 
ne peuvent r^aliser la position de specifieur dans un SN. Si on peut imaginer trailer Tunite k 
peine dans une phase de pr^-parsage (dans une procedure chargee de reconnaitre des unites pol- 
ylexicales et de leur assigner les traits qui les identifient), il n'en va pas de mame pour de le ou 
dans les: il faudrait singulierement augmenter la phase de pr6-parsage pour qu'elle ne traite pas, 
en (1), la sjite de la dans de la fontaine comme de V dans de leau. La reconnaissance de ces 
unites est inseparable de Tanalyse syntaxique: le partitif (par exemple) n'apparatt que dans un 
groupe nominal regi directement par un verbe, une preposition ou en position sujet (moins fre- 
quemment). Les parseurs syntaxiques apparaissent, done, condamnes ^ inclure des operations 
lexicales dans le parsage des unites syntagmatiques et ces operations ne sont pas concevables 
comme Tapplication de regies generates. Elles requierent un dictionnaire oii sont donnees ces 
unites. 



1.2. Les unites polylexicales majeures 
Soit les exemples suivants: 

(4) . a. La bibliotheque usager est au fond du couloir. 

b. On a repare motcur dicsel h quatrc temps responsable 
de la panne. 

c. On a repare le moleur lesponsable de la panne. 

d. Je n'ai pas trouve une bihlaotheque potable dans cette fac. 

Admettons un parseur disposant de regies syntagmatiques comme (5) ci-dessous, Leur 
formulation precise imnortc pcu ici. 

(5) n2 — > specifieur n! complemcntfs). 
nl > ... nO ... 



Certains cnbleB de num^raux «ont, de plus, diflcuntinus: H fume de dix h vingt / mnire dix ®* vingt cigarettes par jour 
(Grrms, 1976). On notera, en passant et plus g^n^ralement, que la representation X-barr© claseique ne dit rien 
d-^s suites « cribi*; f quantifiant » du type iiiuetr^ par (3) ou comme; II a fait a^seg Pfu de linguistique, . . 
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Ce parseur analysera les suites le moteur respcnsahle de la panne tt me hiblioiheque po- 
table comme des groupes nominaux, mais ne r6ussira pas a analyser correctement comma un (et 
un seul) n2 les suites le moteur diesel d qmtre temps responsable de la panne en (4,a) et la hi- 
bliotheque usager en (4,b). La description du groupe nominal encapsulee dans les regies de (5) 
est msuffisante pour traiter ces tours. 



1.2.1. Premiere description 

On peut faire une premiere hypoth^se. De la mSme maniere qu'il existe des unites 
polylexicales mineures, il existe des unites polylexicales majeures: des noms composes. On admet 
que moteur diesel a quatre temps et hiblioiheque usager forment de telles unites. Les regies (5) 
ne sont pas remises en question, si elles peuvent voir ces suites comme ne comptant que pour une 
seule entity et qu'elles les traitent comme la realisation d'une tfite lexicale de n2 & I'instar des 
unites simples {moteur en {4.c) ou bibliotheque en (4.d)). 

Cette hypothise revient a admettre que nO n'est pas une cat6gorie terminale: elle peut 
dominer une combinaison d'items analysable en plusieurs categories. Cette modification implique, 
plus g6n6ralement, qu'un groupe nominal peut « avoir plus de niveaux » que ceux qui sont stipu- 
les dans les regies de (5). Ou bien, que Tanalyse hierarchisee du groupe nominal francais n'est 
pas adequate. 

Le parsage des suites soulignees de (4.a,b) poserait un probl^me identique au parsage des 
unites polylexicales de(I)-(3): on doit rendre ie parseur capable de reconnaftre et de repr6senter 
des entites syntagmatiques et des entites sub-syntagmatiques (lexicales). Dans les deux cas, le 
recours A un dictionnaire listant les unites est incontournable. On notera, par ailleurs, que le 
pre-traitement de ces entites (I'image de celui qui est envisageable pour une unite comme a pei- 
ne) est presque toujours impossible. 



1.2.2. Discussion de la premiere hypoth'ese 

Cousiderons le projet de lister les unites polylexicales majeures. Si le projet de reperto- 
rier les unites polylexicales mineures est possible (elles forment une liste quasiment fermee), on 
s'attend i ce que la liste des unites polylexicales majeures soit extrSmement longue et ouverte par 
creativite lexicale (au mdme titre que la liste des unites simples de mSme categorie). Ce que 
confirment les recensements terminologiques. 

A considerer ces recensements, on constate deux phenomenes: 

■ les mots composes « ressemblent » aux syntagmes: ils semblent formes sur le mfime 
repertoire de formes que les syntagmes nominaux « normaux Le nom r4acteur atomique a 
neutrons rapides ne se distingue pas formellement du nl libre fille blonde a tresses vertes. 

■ le jugement categorisant un fragment de grouF>e nominal comme un mot compose est 
fluctuant et dependant des univers d'emploi. Je renvoie sur ce point it G. Gross 1988. La cate- 
gorisation d'une suite de mots comme formant un nom compose implique des considerations prag- 



De fait, j1 fout diatmguer les nomg compost qui reawmblent 6 dse groups nominaux et ceux qui prteentent une compo- 
flition diff^rente: un sanu-culotte, un chee-soi, un rendes-vous, etc (voir Grotm G IflSS. 61). Ces derniers doivent, 
e&ns doute, itn Uttia. 
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mattques, plus que synraxiques, portant sur les denominations dans une sphere d'activite ou un 
univers de discours donne (univers de discours qui peut s'^tendre aux frontiferes de la langue dans 
le cas d'unites comme pomme de terre ou chemin de fer). 



1.2.3. Deuxieme hypothese 

Admettons le principe formule par Milner (1985b :15): « si des multiplicit^s linguistiques 
apparaissent comme des unites, c'est que des processus bien definis dans la grammaire les traitent 
comme telles. Autrement dit, toute proposition de la grammaire, toute rdgle, toute operation est 
en droit de d6finir un type d'unit^ ». Selon ce principe, une suite de mots peut former une 
unit6 pour les processus r6f6rentiels (un nom compost) tout en relevant pour leur composition 
d'un autre principe de groupement (les regies « normales » de composition du groupe nominal). 

11 n'en demeure pas moins que les regies de (5) ne permettent pas d'analyser les suites de 
(4.a-b). W faut ici 6tendre le paradigme des groupes nominaux consider6s pour la description du 
groupe nominal. 

Soit les groupes nominaux: 

(6) 3. Le president Mitterand inaugure une bibliotheque. 

b. Paul a attrap^ un papiilon toto vulgaris. 

c. Le mot chaise n'a pas cinq lettres. 

d. L'agence de presse officielle britancique Tartempion ^ rap- 
ports que .... 

Les GN soulign^s en (6) manifester .n m^me principe d'organisation que ceux de (4). 
Je I'appelle parataxe: adjonction sans discontmuite. On peut representer ces structures comme (7) 
ci-dessous: 

(7) [nO N N] : [nO moteur diesel] 

[nmax. Nmax. Nmax.]: [nmax ln2 !e president] [n? Mitterand]] 

En effet, la parataxe ne semble pas s'operer au mfiine niveau: au niveau lexical pour mo- 
teur diesel et au niveau maximum pour le president Mitterand.^ 

Sans que cela constitue une argumentation, on remarque que si on analyse moieur diesel 
et president Mitterand comme une parataxe au niveau maximum, on ne peut pas analyser moteur 
diesel respimsable de la panne en (4.b), sinon admettre le resultat absurde ou diesel 
serait pris comme xtxt d'un SN regissant le SA responsable de la panne. A I'inverse, 
si on analyse president Mitterand el moteur diesel comme une parataxe au niveau minimum, on 
ne peut plus analyser le groupe nominal souHgj. de (6.d). 

Admettons Thypothese de la parataxe. On peut classer les groupes nominaux examines 
dans ce paragraphe comme des structures exceptionnelles, des tours p^riphSriques (il 
n*en demeure pas moins qu'un parseur i couverture maximale doit tUc capable de les traiter). 
Ce jugement ne peut etre maintenu que s'ils sont isoI6s. Or, il est, ii cet 6gard, remar- 
quable que le groupe nominal soit par excellence le Iteu de la parataxe (ce trait le distingue des 
autres consiituants majeurs de S). Ce qu*illustrent les quelques exemples suivants: 



II faut lint- le cm de la mention {6.c): elle semble sppartenir au syit^me du nom propre. 
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S. a. La belle Jenne fille. 

b. Un tricot de lalne A encolure de sole de ma grand-m^re. 

c. Rien d'autre d*!nt£ressant. 

On notera seulement quelques propri6t63 des 6I6ments soulign^s en (8): 

■ ils ont la meme identity cat6gorielle (adjectif, nom, SN, SA,..) 

■ ils ne reinvent pas directement du systeme de rection (voir ci-dessous) de la tete lexi- 
cale du syntagme, ' 

ti^f.. ■/ se «iiff6rencient selon plusieurs paramdtres: materiel en (8.b) [difference de pr^po;-i- 
M?,^; 1 ofl , ^"^^^"'■^l' c^^se syntaxique en (S.c) (en admettant que (8.c) est un SN. Voir 

Huot 1981 sur ce point] classe s6mantique en (8.a), statut r6f6rentiel en (8.b) [difference entre c^e 
nom propJe] '^^ grand-mere ] ou (6) ci-dessus (GN « nor^ial » vs GN r^gj par un 

Les fails sont complexes et ils n*ont pas ate, ^ ma connaissance, decrits formellement ^ Je 
ne 1 entreprends pas ici. On retiendra: 

fnrm*.iip*m """t- ^" '"f^/''®'' '"""^ ouvertes t des phenomenes de parataxe (plus 

rnnTt- J^f c ^^J°"^!>°"> ^"^^ ^^ut explorer avant de maintenir une analyse hi6rarchisee de ce 
constituant. Sur ce point, une comparaison s^impose avec les autres structures plates dan«- la lan- 
coordonnes * Plus gen6ralement, il s'agit de Tintrication d'une organisation hie- 
rarchique et des d6veloppements honzontaux qui s'y greffent. Une represeutation cohirente doit 
etre donnee de ces deux modes de structuration. 

^ ui- i" elements en parataxe sont soumis k une contrainte de distinction. II reste a 

etabhr le rapport entre cette contrainte (portant sur des elements qui ne sonf le support d'aucune 
tonction) et les autres pnncipes de distinction poses par ailleurs: disjonction referentielle et non- 
redondance fonctionnelle (Milner, 1981). Si on admet que la distinctivite est une des propriet6s 
des unites linguistiques nous tenons Ih un indice que les tours consideres dans ce paragraphe 
forment bien, au regard de ce principe, des unites. 

«^i.io,?"i ?f la deuxieme hypothese est coherente avec la description des phenomenes de 

polylexicahte affectant d autres constituaots, par exemple le groupe verbal. On y retrouve la 
meme situation- des structures reguliferes et des interpretations particulieres.^ Je ne peux develo- 
per ici la critique de Tinterpretation semantique dans les femes de la compositionalite Le pro- 



7 

Petite note: 1« d^veloppeinent de la linguistique contemponune relive plus de I'^clatement en factions ou en chapelles que 
m,« It^ 5^"*!? dee rteultati et des hypothiee.. R^eultat: une situation d'^clatement bibliographi- 

que. oft u eet tr*« difficile d'acc^der aux travaux qui ne eont pae citie dans lea bibliographiee des ou-VSS ^e 
situant an dehore da son horiton Intellectuel, inatitutionnel ou th*orique. 



8 



On peut coordonner k tou. lee nivebux de n2. Coordination sous nO: I'x^dtaikien et mioirtiv a encore f-app*; coordini.- 
^"«n"n ««*«'"P,<»'Jf^^'«*-/ ^ I«fi~« (Milner 1978), coordination «,us n.r E fenmJrt 
ZL^^u^ paralaxe au niveau nl. Par ailieure, la parataxe au niveau ..laximum 

aemble timstde au nom propre, aux appellatib et, sous r«Mrve, & la mention. 

*Ce que ^^^f^^^^^^^J^^ "^TrB^- "!.^ * "s^^ (• •) -'analy^^nt pratiquement toute, de fa«cn syst^mati- 

quoment r4gull*re. Ue regies qu'elles tubuaent sont exactement lee rigles de la eyntaxe des phnwea Hbrw et ce 
ausai bien pour leors parties libree que pour leur parties fig^ee*. Voir Agalement Greciano 1983. 
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blime demeure, n6anmoins, dans la perspective d'un traitement s^mantique des representations 
syntaxiques, d^imaginer les formes de representation n de stockage des Elements constitutifs des 
contenus « fig^s » ou metaphoriques convoqu^s dans Tinterpr^tation de certaines combinaisons de 
signifiants. 

Enfin, la seconde hypothese implique que Ton distingue la polylexicaIit6 des unites mi- 
neures et des unites majeures. La polylexicalite mineure demande la confection de repertoire et 
des operations oe parsage particulidres (appariement de la chaine de mots pais^s et de la suite 
stockee dans la base lexicale). La polylexicalitd majeure est d*abord le symptdme d*un defaut de 
description et de formalisation du GN. 

La voie de recherche esquissee dans la denxime hypothese deplace le probleme de la com- 
plexite du parsage d*un constituant comme le groupe nominal fran^ais: ce n'est pas tant la com- 
position nominale qui est problematique que la syntaxe m^me du groupe nominal. Les noms 
composes ne feraient qu*exploiter les virtualites structurales du groupe nominal. Le probleme de 
la couverture requiert done bien que Ton augmente la couverture de la theorie syntaxique: empi- 
riquement et formellement. 



2. INTRICATION SYNTAGMATIQUE 

Les grammaires syntagmatiques captent Torganisation de plusieurs unites lexicales en grou- 
pe: les syntagmes. A propos de cette organisation, elles font deux hypotheses particulieres (qui 
ne decoulent pas necessairement de Tlntuition de depart): 

■ Torganisation des groupes est exprimable en termes de composition categorielle: une 
phrase est constitute d'un SN et d'un SV, un SN est constitue d*un determinant et d*un nom, etc, 

■ les categories constitutives d*un groupe sent hierarchisees: nO est inclus dans nl, nl est 
inclus dans n2, etc.^^ 



On a vu, au paragraphe precedent, que ces differentes hypotheses, representees de fa^on 
compacte par les regies syntagmatiques, devaient Stre disjointes et soumises ^ Tepreuve de la 
description de tours qui ne sont generalement pas consideres. 

Les parseurs font une assomptton supplementaire: les regies syntagmatiques decrivent les 
dispositions de surface des mots dans la chaine parlee/ecrite. Le rapport entre les configurations 
syntagmatiques et leur projection dans la chaine n'est pourtant pas direct: deux faits s'y opposent. 
Le premier est bien connu: Tordre des constituants est variable (ce qui a entraine Taugmentation 
du formalisme des grammaires syntagmatiques: transformation, chaine dans les grammaires d*ins- 
piration chomskyenne, meta-regle et distinction entre regie de dominance et rdgle de precedence 
dans la GSG). Je laisse ce point de c6te. 

Le second Test moins: un groupe peut 6tre discontinu par insertion d^autres groupes en 
son interieur. 



Je reprendfi ici Milner 1985b. H y a ici un problem© de fond: e«t-ce que n2 eet inclus dans S de la m^me mani^re que 
nl est inclvs dans n2? On peut en douter. On Bait, par ailteurs, que i'on peut douter de la cat^gone « groupe 
verbal » (voir sur ce point, Gross 1976, Miincr 1986b, Rouveret- Vcrgnaud 1980). D*oCi la valse-h^itation ^ 
propos de la d^Hnitton de la cat^gone S ^ans la Hnguistique d'insptration chomukyenne. L'approche projective 
(Introduite au paragraphe S) n'implique pas que ]e principe de coh^ion dans les differentes entit^B syntagmati- 
ques soit identtque-j mais il faut, alors, donner une d^Hnition autre que titructurale h la catdgorie t^te lexicaJe 
» d'un syntagme. 
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2.1. Exemples dMnsertlon iDtra-syiitagiiiatique 

u .' En restant dans un cadre syntagmatique strict esquisse plus haut, I'insertion est possible h 
rmterieur d un groupe: 

(9). a. II a, chose exceptionnelle, revu Marie. 

a'. lis ont, ies uns et les autres, fait de la linguistique. 
b. La destruction, ill^gale comme le tribunal I'a montri, des pieces n'a 
pas ^t^ jugee. 

Aux fronti^res entre groupes, c'est-^-dire dans I'interieur d'un groupe enchlssant: 

(10) a. Paul, aiix poliders, a repondu non. 

a'. Paul, d^s le lendemain, a repondu non aux policiers. 

b. II opte sur le champ pour la liberty. 

c. La destruction des pieces, iv^nement Inadmissible, n'a pas H€ jug6e. 



Aux frontieres gauche et droite de S: 

(1 1) .a. A Paris, Marie, le directeur, elle ne le rencontre pas. 

b. Marie ne Ta pas rencontrd a Paris, le directeur. 

c. II a dit que, Paul, h Paris, il ne le voyait pas. 

d. La pomme que je lui ai donnee, k Paul, etait empoisonn6e. 



II faut admettre que les p rtions de chalnes syntagmatiques immunes ft de telles insertions 
sent rares. Pour le frangais (et sans souci d'exhaustivite): clitique— verbe Cil aux poli- 
Vn^' J! T ,.' policiers, denonce.), determinant— ad jectif—nom (*la. comme il dit 

fiile : la belle, vraiment ires belle, fille.) et peut-Stre, preposition-sn (??il est venu dans chose 
excepttonnelle, sa voiture. : *il I'a dome d. dit-il, la fille. 

L'insertion intra-syntagmatique est done un phenomene g6neralis6. 

/n ^iTf"^"^ parseur disposant d'une grammaire syntagmatique. II se trouve face aux 
tours (9-11) dans une situation analogue i celle qui 6tait introduite au premier para- 
graphe: il doit parser autre chose que ce qui est prevu par la description de la categoric qu'il est 
en train d'appliquer ft la suite de mots en entree. 

^^r/^^" ^^^^ format des grammaires syntagmatiques ne permet de prevoir cette situa- 
tion (la difference des entites que je qualifiais de sub-syntagmatiques au paragraphe I)- la solu- 
tion ne peut 6tre que technique. Cest une telle solution technique que propose Marcus avec ses 
« attention-shifting rules »: le parseur sursoit ft une analyse pour en mener une autre 



"Ces insertioHB peuvent avoir lieu & I'intirieur dc euiteg analysables comme dee formanta polylexicaux, comme le mon- 
trent le« exemples de Plot 1988: 

l«")- a- d« UHb K»t«, dia&it-il & Marie, que tu n« partea pad .... 

b. ... mrmit, dtgait-il 4 Marie. i|iie lu ne parl«© . .. 

c. dhM km, bien gQr . que tu e« d*accord avec lui.... 

L'analyse des suitea de telle sorte que, avant que, etc comme des formanta polyUxicsux (lea locution* conjonctt- 
ves de la grammaire traditlonnelle) n'eat peut-^tre pm In meilleure. On peut lee analywr, en sulvant Emonds 
19»6, comme la realisation r^gulidre de la combmaison: « prtpc«ition Cette analyae impHque que let pr^po- 

Bittona jci en caude eous^cat^gonsent leure complements. 
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mais cette possibilite est limit^e, dans I'implementation de Parsifal, aux groupes nominaux et a 
une seule portion de la chaine syntagmatique: le GV (precisement, et pour I'anglais, la combinai- 
son « aux-verbe »). Si Ton veut « armer » un parseur syntagmatique pour le rendre apte a 
parser correctement les 6nonc6s (9-11), la technique du « detournement d'attention » devrait ^tre 
g6n6ralis6e sanr que rien dans la theorie syntaxique ne vienne I'etayci; elle se trouve 
done 6tre ad hoc vis-^-vis de cette theorie. 



2.2. QueSques ^l^ments de description 

Les grammaires syntagmatiques captent I'organisation des groupes en phrase (ou dans ki 
phrase): les groupes qui y sont reconnus entrent dans les processus syntaxiques ou semantiques qui 
ont pour domaine la phrase. 

Certes, et c'est un point important, les groupes inseres sont des groupes regulierement 
formes, mais ils ne relevent pas de la phrase pour leur position de realisation ou pour leur inter- 
pretation, lis sont inseres « en surplus de S » (Cadiot-Fradin, 1988) et sont en relation paratacti- 
que ayec un Element de S ou S en son entier.^* lis sont ^e support de diff^rents processus inter- 
pretatifs que Ton d^signe habituellement sous les chefs de: apposition, thematisation, reperage 
support, reprise ("tail function" dans Dilc 1981). 

Je laisse de cdte les differents traitements proposes en grammaire generative (je renvoie 
k Fradin (en prep.) pour leur critique). La description de ces ajouts montre qu'ils ne sont pas 
des ph^nomenes « sauvages »: ils sont contraints dans leur forme et leur interpretation. Deux 
points emergent de la description: 

Les ajouts sont contraints par I'organisation de S. Par exemple, la position entre auxiliaire 
et verbe n'est pas ouverte A tout GN: 

12. a. Paul a, le traitre, revu Marie des le lendemain. 

a'. Marie a, cette garce, revu Paul des le lendemain. 

b. * Marie a, le voleur, revu des le lendemain. 
b'. * Marie Pa, le voleur, revu des le lendemain. 

c. Marie I'a revu des le lendemain, le voleur. 
c'. Le voleur, Marie I'a revu des le lendemain. 

Elle n'est pas ouverte d un GN regi par le verbe (b) ou a un C»N lit- a un clitique; de 
plus, il semble devoir etre interpietable comme un nom de qualite (Miiiier, 1978). 11 est pos-i^ible 
de decrire ainsi les contraintes pesant sur chacune des positions de la chame pcrmettant la reali- 
sation d'un ajout t 5. 

Leur interpretation depend de leur position dans la chaine; cette position est caracterisee 
par deux parametres: droite ou gauche et contiguite/proximile d'un element dc S. Je ne peux 
pas entrer dans le detail de la description ici. Qu'il suffise ici de rappeler qu'un GN a la droite 



12 

Marcus 1980: PARSIFAL est, i ma connaissance, le bt ul parseur i bimo syntagmatique qui pose ce problems, tl est, 
bien edr, pieinem«nt reconr u dana les parseurs en chuincs (Salkoff 1979) 

13 

S.-.tif (8a): Paul, oux poiiden, a r^potidu non , si on anftlyse aux policiers comme le complement sous cat^gonu* de 
r^pondre, La description de ce tour poee dea probl^mes complexes. Je m'appuie dans ce paragraphe sur la 
description de Fradin hm. lilufltrant le probl*me de I'insertion, je n'opire pas de distinctions sur cee ajouts. 
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de la frontifere de S ne peut pas etre trait6 par les processus de th6matisation ou qu'un GN k la 
droite de y ne peu| etre trait6 que comme une reprise (ou une apposition au GN contigu s'il 
n est pas 116 par une anaphore). * 

La description de ces tours met en jeu deux types de structures: les structures relevant de 
la phrase et des structures relevant d'un systfeme multiforme qu'on peut appeler €nonU. Elles 
^ parl6e/^rite entremSI6es. On peut faire Phypothdse que cet entremeiement 
est dQ a la co-tramte de proximit6/contigum avec le terme avec lequel les 6l6ments « en surplus 
» sont en relation ou les termes distingu6s de S (le sujet ou le verbe). Sous cette contrainte les 
syntagmes ne sont pas des domaines ferm6s: ils sont disruptables, II est a noter que les represen- 
tations arborescentes de « la structure de surface » ne peuvent pas repr6senter ces insertions 



2.3. Le problime pour un parseur 

Un parseur expos6 au tout-venant des 6nonc6s sera af fronts h des tours tels que (9-12) 
Pour le parsage (et pour un parseur particulier), la question peut etre pos6e brutalement: va-t-on 
se decharger sur Tinterpr^teur du traitement de c-.s faits, ou bien va-t-on chercher a les reore- 
senter dans une syntaxe du frangais? 

Je doute qu'on puisse les reprdsenter par des operations de deplacement, et la saisie des 
contraintes de realisation dans la chalne ne peut pas etre specifiee localement (cf. les regies de 
precedence hneaire de la GSG). En d'autres termes. il y a une lacune conceptuelle dans les theo- 
ries syntaxiques actuelles," 

II fauf >.-aiter de ces structures dans une syntaxe du fran^ais, pour deux raisons: 

« elles sont contraintes syntaxiquement et ces contraintes interviennent dans leur 
interpretation, 

■ les processus interpretatifs dont elles sont le support ne sont pas purement pragmatiques 
(sans mettre en doute que des contenus pragmatiques sont mis en jeu dans ces processus) La 
theorie du parsage syntaxique a, aussi, I'ambition de representer les aspects des 6nonces 
qui teraient 1 interpretation. II est clair que ces tours sont determinants pour la raise en 
place des rapports entre le contexte d'occurrence et I'interpretation du noyau phrastique (predica- 
tion et interpretation evenementielle). Un parseur s6mantique qui ne les prendrait pas en compte 
ne saisirait qu'une petite partie de ce qu'est interpreter un enonce. 



3. KEGLES SYNTAGMATIQUES ET LEXIQUE 

La remise en cause des regies syntagmatiques n'est pas effectu-* ~ 4 propos des construc- 
tions que j'ai introduites aux paragraphes precedents. Elle est lie; u traitement de Ja sous- 
catt gorisation stricte des entites lexicales majeures (en particulier les verbes). Je developpe brie- 
venient quel est I'enjeu pour le parsage. 



"pour une itude de cm *clairant«, voir la dMcription de Franckel 19S8 consacr^e & I'interpretation du girondif francais 
felon qu ii se trouve h gauche ou & droite du rerbe tens^ de S. 

"l«8 descriptiona de la grtrnmaire fonctionnellc (Dik IMl) ou dea grammairea en chalne ne sont pas locales: elles pren- 
nent en compte la chalne en aon entier, mais ellf>« souffrent, par wUeuro, d'un manque de precision qui demand* 
une rd^laboration. 



158 



ERIC 



Ih'tcrogeneiie ei iniricaiion dam Ics c nonces 



3.1. La sous-cat^gorisation stricte 



3.1.1. Dans Papproche d'origine, les regies syntagmatiques sont regroupees: elles forment 
un '-omposant autonome {la basi') dans le modele des grammaires generatives d'avant Gouverne- 
ment et Liage (GB), ei un module autonome dans la GSG et GB. Dans le modele classique de la 
grammaire g6n6rative, les regies mettent en place progressivement la structure en constituants dt> 
S en « allant de S vers les items lexicaux ». J'ai dej.l note que Ton pouvait douter de rhypothese 
selon laquelle il y a « solution de continuite » entre les differents constituants de S et S. 

Ce developpement s'opere de fa(?on autonome par rapport aux items lexicaux: ils viennent 
se ranger dans les structures ainsi developpees lors de la reecriture des symboles pre-terminaux: 
lis sMns^reot dans la structure syntagmatique (voir la regie d'insertion lexicale dans Aspects par 
example). 

Cest le modele de base pour les parseurs. L'interpreie parcourt les regies "en allant des 
items lexicaux vers la categorie racine (S) ou de la categoiie racine vers les items lexicaux". Les 
Items lexicaux y sont vus sous Tangle de leur idetitite categorielle, identite categorielle qui fait 
robjet d'un test validant rapplication de la regie ou son cchec. On peut dire que de tels parseurs 
parsent non pas des enonces particuliers, mais des grammaires a propos d'enonces particuliers. 



3.1.2. Je rappelle brievement ce qu'est la sous-categorisation stricte. On part de la cons- 
tatation suivante: une unite lexicale (verbe, nom, je laisse de c6te les autres categories majeures) 
se construit avec un (ou des) complement(s) d'un certain type categoriel; elle ne forme pas une 
suite grammaticale quand elle est construite avec d'autres types catep,oriels. Ainsi. et en repre- 
nant les exemple* classiques: 

(13) a. L'idee que tu viennes m'ennuie. 
a'. Le plan que tu viennes m'ennuie, 

b. Je choisis la liberte (* pour la libertc). 
h\ ♦J'opte la liberte ;0K pour la liberte). 

c. J'ai obtenu un rapport de Paul (* Paul) 
c'. J'ai so itire un rapport ^ Paul (* de Paul) 



On constate, done, qu'un ifcni ioxic;il donru- n'l t .-"MipLuibie qu'avec un enseniblc res- 
treint de constituant.s, sans que le semanlismi' des items no pormelte prevoir ceite compafibilite 
(ceite derniere caracterisation deviait oire ^w.vx.wq). I.>cux dcscriptic^ns, extremement diffetentes 
dans ce qu'elles presupposent de la langue, v)nt en li«.e. 

La premiere (t-lle a donne son ncm au phcnomcne) est dirrctement issue de Papproche 
distnbutionnelle qui est au fondement des grammaires syntagmatiques. Un verbe, par exemple 
choisir, apparait dans le contexie d'un GN, alors que tcl autre verbe, par exemple opwr, ne le 
peut pas. On peut exprimer le contexte dans deux dimensions: la chaine ou le syntagme. 

Dans la dimension de la chaine. on trouvo 1-s traitement.s classiques dits « dependants du 
contexie ». Cest celui de Asprcis: chaque veibe est affecte d'un trait stipulant son contexte droit. 
La regie d'insertion lexicale est sensible non sculement ^ Pidentite categorielle (par exemple, etre 
un verbe), mais aussi A ki sous-classe de V a iaquclle il apparticnt (etre un v qui peut apparaitre 

dans tel contexte, par exemple pour choisir, dans la chaine « n2 »). Le traitement dans 1: 

dimension du syntagme a ete developpe par !a GSG. On dira que choisir a la propriete d'appa 
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^rmJTJ^ nu ^'''l^! ^""^ T/^' ^P'^' » la propri6t6 d'entrer dans un GV de 

forme [vO p2 Chaque verbe est affects d'un trait (pr^is^ment d'une valeur ?un trait^TTHrATl 
repr^sentant I'identificateur de la r^gle de d^velop^menrdTsyntgme oTce verbe ^ufaDoa^T^ 
tre en position tfite lexicale (Gazdar et al, 1985: 34)." ^ apparai- 

^«»^«« Ces deux traitements oWisssent au mfime scheme: on distingue des sous-cat6sories de Ji 

dans approche distributionnelle par la propri6t6 « etre insurable dans tel contexte " est Hor^t 

gorfel eTcv fde'^'nhT^ " '''^'^ compl6ment(s) Iircomfi" ion^^^^^^^ 

S.vvi ! A.- J^f P'?'^® ^" '■^^"^^ " constituant) d^oend crucialement d'une Drooriete 
lexicale pretee ^ chaque item lexical, la propriety de rection.*'^ ^idicmeni a one propnete 

La probI6matique peut Stre 6tendue ^ ce qui n'est oas de Tnrrfr*. rt*. la r»^f.«„ 
a proprement parler (les complements), 6 tous les 61^ments d/pLnd?nt d'unrSnu/lex cair^^^^ 
t^uTt% dans le groupe nominal. II y a senfa dire que 'ernls enfran^l 

«n^i"n,t^^!°.?'"' P^''''^" sp^ifieur (absence ou presence de cettr^si ionTpar e«mS^^ 
IZeii^nVnZ' ""T?" ^^^"ifrent pas de determinant (MademoiseZ TvenT, MarTeit 
rs c ;co„?t«n'Hr^'""'''^'' ^^"^^ "^^^^^ dans des groupes permeuan 



Progressivement, c'est la totalite de la structuration des syntagmes qui m oasse sous la 
d^pendance ^ de la t^te lexicale. La place et Pextension d'un comp^sanfTutoSoL deTgles svn 
^irT'' diminuent d'autant: !a rection lexicale 6tant locale Jl n'y a de Lns ^^ 'P'^^^ 
regie de composition que pour un constituant mettant en relation deux localitds: c%st la "hfse 3e 
GB concernant le groupe S dans les langues comme le fran?ais. X-barrrpem aloi^ 6tre concJ 
bonnTfnr ""^ '^^"^ ''''''''''' ^'^^^^"i^^tion des sy'ntagmes, queIqT'chte"comme°u'^ 



3.2. Elements de synthdse. 



n^^ A ^ probleme sp6cifique du traitemert du fait a construire sur les contrastes de 

ni^c. il^f "h"' ^r*'"' hypotheses fondamentalement differentes su fa Se la 

place du lexique dans la syntaxe, la definition de ce qu'est une structure svntaxioue ps rnnrf 
nons de reconnaissance et d'interpr6tation des structures syntax iques ^y"'"'''^"^' 
Dans I approche d base distributionnelle, les rdgles d6finisscm les structures syntaRmatioues nossi- 
bles pour une langue donn6e. Ces structures definissent le cadre d'emplo efde Sonnemem 
des unites lex.cales. Elles constituent egalement un principe d'organiXn du iLique Te ?exTau^^ 
aant la hste de tous es items, etant donn^e la sous-liste des items appartenan \ teUe catSe 
on peut partitionner les listes categorielles en sous-listes regroupant les items particulim^^^^^ 
c^'flgorVneVeTcSG) syntagmatiques (on 'reconnait I. Pappr'o^n l"^^^^^^^ 



^«0n pro.4^ain8i pour iout^ !«, caWgoriet, majeure. De fait, dan. GSG. pour tous 1« item, lexicaux. Je renvoie i 
Gaedar (op. c.t.) pour la cntique du traitement « dependant du contexts » de Aspects. 

I J, 

bur la repnee du concept de rection, voir, par exemple, Rouver«t 1987 ou Milner 1986a. 



**Voir 8ur ce point Milner 1978, Marandin (en pr*p). 
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Dans Tapproche projective, les items lexicaux definissent des espaces structuraux et selec- 
tionnent les entit6s linguistiques qui peuvent occuper les positions d^finies par ces espaces. Lcs 
espaces determines par les items lexicaux, sont soumis ^ des principes de bonne formation. Cha- 
que item lexical 6tant a priori different de tous les autres, il n'y a pas de principe d'organisation 
du lexique. S'il y a organisation du lexlque, elle est decelable sur la base des items eux-m^mes 
et de leur propri^t^s. On peut constater ici une convergence avec le programme de 
recherche « lexique-grammaire » d6fini par M. Gross. 

Dans le ref^rentiel de I'approche projective, il n'y a guere de sens ^ deiinir 
un parseur comme un interpreteur de regies syntagmatiques: il apparait davantage 
comme un « interpreteur » d'informations lexicales (les propri^t^s des items parses) sur les struc- 
turations possibles d'une portion de chaine: cette portion est d^finie comme le voisinage droit ou 
gauche qui fait Tobjet de I'information port6e par Titem. II est done fondamental, pour la theo- 
rie du parsage et, pour un parseur particulier, de se donner es moyens de choisir entre ces deux 
hypotheses. 

L'hypoth^se projective est adoptee par la theorie GB (Chomsky 1984, Rouveret 1987). 
Dans ce cadre, le principal argument donn6 pour I'abandon des regies syntagmatiques generant les 
constituants A t^te lexicale, est la redondance des regies de r^ecriture par rapport a Tinformation 
associee aux items lexicaux. « {La regie V" — >N" S'J recapitule une information d6j^ presente 
dans le jexique: convaincre est un predicat sous-categoris6 pour deux complements, un comple- 
ment N" et un complement S', auxquels il attribue des rdles thematigues » (Rouveret 1987: 54). 
Le raisonnement met en jeu les principes d'economie d'une theorie.^ Mais i! doit, aussi, etre 
soumis ^ la validation empirique. Cette validation met crucialement en jeu I'ensemble des pro- 
pnetes des items lexicaux. Ost un programme de recherche ou le facteur quantitatif (le nombre 
d'items ou de famille d'items d^crits) prend une valeur certaine. 

Ce facteur quantitatif est, bien sOr, determinant pour un parseur ba.e sur rapproche pro- 
jective. En toute logique, tous les items lexicaux doivent £tre associ^s k finformation pertinente 
au parsage de la portion d'enonce oii ils apparaissent. Etant donne I'ampleur de la tache, et Petat 
des problemes aff^rents a la representation et au stockage des informations lexicales, il faudra se 
resoudre d'un puint ;<e vue realiste et pour quelques annees encore --a doter ce type de par- 
seur de procedures heurisrques de parsage par defaut d'information. 



4. CONCLUSION, 

J'ai introduit trois problemes distincts. lis relevent de la syntaxe du jrout? 
nominal franfais, de la syntaxe de la chaine parlee/ecrife et de la relation entre lex.- 
que et syntaxe. Le groupe nominal doit etre decrit dans toute sa complexite: est-ce une ..or - 
plexite phenomenologique ou une complexite structurale? A-i-on, pour cette unite, plusiou 
principes formels d'organisation ou un seul? Le probleme de la chaine parlee/ecrite'est autn - 
ment plus redoutable: on constate qu'elle n'est pas exhausti' ement structuree par la projection u« , 
items lexicaux en domaines et/ou une grammaire syntagmatique s'enracinant dans S, Ir 'lomainj 
S est immerge dans une organisation qui doit recevoir un statut theorique et formel (elle n'est pas 
concevable comme une strate enchassante): c'est une des conditions de possibility du traitemei t 
des processus syntaxiques et semantiques de reperage, thematisation, predication sous-jacentf , 
reprise, modalisation enjnciative. Si Ton admet que I'interpr^tation d'un enonce est d'abord con 
textuelle, I'enjeu est considerable pour la formalisation de la semantique associee au parseur. 



On notera que le traitement de la GSG ivitc cette red«^ndance en recourant h la i.otation trait/vaJeur: trait de boub 
cat^gorioBtion/identificateuf d'une rtgle syntagmatique. Et .... mainti«nt uu module de r*glee eyntagmatiques. 
On trouvera dane Heny 1979 (mygt6rieu»ement pen eit«) l"arch*ologie de cette discussion. Je n'introduie pas dans 
ce qui suit le Principe de Projection, bien ^videmment aolidaire de cet argument, afin de ne pae alourdir I'exposA 
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Enfin, la place du iexique dans I'^nomie de la tMorie syntaxique, par deU renjeu th^orique 
gortant sur la definition des propridt^s de VentiU langue, determine Tarchitecture des parseurs. 
Elle determine tr*s directement la forme et le contenu des representations associ6es aux items 
lexicaux. Or, on ne souligne pas assez que le "lexique" (pris en lui-m«ine) n'impose aucune for- 
me; comme la confection d un dictionnaire est une tflche considerable, toute decision porunt sur 
la torme des entrees lexicales est lourde de consequences pratiques. 

L'accroissement de la couverture des parseurs semble done etroitement dependante des 
avances theoriques ei empiriques de la linguistique. 
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#l|E^ll^ES Oi iA UnGUE» : UN CONCEPT A DCFiNIR 



Nons nous sommes rendu compte que le titre, choisi au prealable c'est-a-dire « Industries 
de la langue : un concept d definir », pouvait donner rimpression que nous apporterons d<^s 
solutions aux probt^mes soulev^s par la definition et la description des industries de la languc. 
Or, il est assez difficile de synthetiser tout ce que comprend et, surtout, tout ce que sous-emend 
le terme industries de la langue A Pinterieur d'une seule definition. 



Dans le cadre de cet expose, nous nous limiterons i mettre en lumiere deux aspects du 
concept d' « industries de la langue » en tentant de fairc ressortir ce qui le caracterise dans un 
contexte francophone. En fait, notre expK)se prendra la forme d'une introduction aux industries 
de la langue : nous nous attacherons a demontrer la difficulty de definir ce concept. Peut-etre 
qu*un titre comme ^Industries de la langue : un concept en voie de definitions leverait rambiguVte 
posee par le premier. 



Nou:> tenons H preciser que nous presenterons les industries de la langue en faisant 
reference au contexte francophone car, dans un autre contexte, les IDLL revetent une valeur toute 
tre- 



On a vu surgir, vers 1984, un terme nouveau, celui industries de la tans'ue qui a donne 
naissance i des derives : industnalisaiion <de la langue), slndusirialiser (en parlant de la langue) 
ei industrialise valeur d'adjectif). (Ajoutons ici que nous avons deji entendu industriel de la 
ianffue mais Tutilisation de ce terme semble limite k un cadre restreint). 



Si le terme industries de la langue en tant que tel semble connu par plusieurs, le concept 
qu'il recouvre reste encore vague. II fournit, cependant, des indices a- i ^ son contenu. i,viusiru' 
implique une forme de transformation, de fabrication ou d*adap. on d'un materiau, ici le 
materiau serait la langue. On pourrait y voir, en outre, Tindice ci'une volonte de commercialiser 
des produits relics d*une fa^on ou d'une autre k la langue. Les trans de definition que nous avons 
esquisses ont de quoi surprendre. On peut peut-dtre parler, a la rigueur, d'adaptation de la langue 
mais comment peut-on fabriquer, transformer ou commercialiser un materiau linguist^oue'^ Nous 
reviendrons sur cette question plus loin. 



Le concept d' « industries de la langue » a ete defini et redefini par plusieurs personnes 
specialistes ou non (plus souvent non specialistes) ma'.s il demeure encore difficile k circonscrire 
et tous les auteurs s'entendent li-dessus. Le fait cu'on utilise toujours le terme au pluriel (on 
parle des industries de la langue mais rarement d'une industrie de la langue) temoigne 
probablement du caractere encore flou du concept qu^il recouvre. 



Lorsqu'il est question d'industries de la langue, il est souvent question d'informatique, de 
langue naturclle, de reconnaissance ou de synthese vocale, d'intelligence artificielle ou de 
linguistique informatique, de grands termes qu'on insere dans des enumerations qu' voudrait 
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c.«, .^""-^"i de r^pondre k cette question, on peut d'abord affirmer qu'il est possible de nre- 
senter les industries de la langue de deux fa?ons, sous deux perspectives qui / p^reS vue ne 
paraissent pas complementaires (voir figure 1). premiere vue, ne 



FIGURE I: 



Industries de la Langue 



Plan technique 



Langue franca ise 



infonsat ique 

linguistique informatique 
intelligence artificielle 



an^gement Hngtiistique 



produits, techniques d6riv6s politiques francophones 

de la recherche dans ces 

dom&ines 



D'une part, les industries de la langue sont caract^risees par ce que nous aoDellerons ur 
aspect technique: les IDLL regroupent Tensemble des procedes et des te^hniqCes qui per^^^^^^^^ 
un traitement automatique de la langue. pcnucuciu 

a decrir^ llTifT:l^l ^« ^ ^^"8"^ presentent un second aspect qui est plus difficile 

t iTJ ? Kp^^'"'^^- E"es apparaissent comme une solution au probleme de sauvegarde de 
la langue fran?aise comme mode de diffusion dans les secteurs de pointe. Elles s'inscrivent en ce 
sens dans un vaste plan d'amenagement linguistique. mscrivent en ce 

On peut expliquer I'interrelation de ces deux aspects en decrivant les circonstances qui ont 
TnZ nfr^TvT 'T^^^ '''' de la langue >>. II est ne dans un contexte politique, 

et plus particuli6rement dan? cawre ue la Conference des chefs d'fetat et de Gouvernement des 
^^r. IIT ^" """loi!!"".!,"" du fr£.ngais, titre officiel donne au Sommet francophone de Paris 
tenu en fevrier 1986. (II y avait bien eu quelques travaux auparavant mais c'est surtout k cette 
occasion que le concept a tie diffuse.) (Voir fig. 2.) Ainsi les industries de la langue sont devenues 
un des cinq pdles d interet principaux des pays francophones au meme titre que I'^nergie 
Agriculture, la culture et la communication et enfin, Pinformation scientifique et le develop-' 
pement technologique (voir Fig. 2). m <s c uc civ;p 
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FIGURE 2: 



P6les dMnt^ret des chefs d'Ctat et de 
Gouverriement dcs pays francophones 
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Les etudes menees lors du sommet ont conduit au constat suivant: 



4< La langue fran^aise doit rapidement g'inscrire dans le -nouvement actual 
d*indufitriali«ation des iangueg; autrement €Ur deviendra de mo\A% t n moinn apte au 
d^veloppement de la recherche dans ies secteurs de poinle 4?t, ^ long terme, sc 
margiHcilisera par rapport aux autres grander langu^s de communication intern ation ale 
dans ces champB d*activit68 eaaentiels h I'avenir de la francophonie. » 

Les chefs d*Etat ont vu dans Tindustrialisation de la langue le moyen d'assurer (ou plu ji, 
il faut bien radmettre, de redonner) 1 la langue franjaise son statut de langue vehiculaire de la 
science et de la technique. Trois organismes ont ete crees pour poursuivre les travaux amorces 
dans le cadre du sommet et pour proposer des programmes visant i promouvoir les industries de 
la langue: il s'agit du Reseau des industries de la langue, organisnie i vocation Internationale; de 
la Mission industries de la langue, dont le centre d'activites est situe en France; et du Sous-comite 
quebecois des industries de la langue dont le siege est, de toute evidence, au Quebec. 



Par ailleurs, ^ Texterieur de la structure des sommets francophones, d'autres travaux ont 
ete effectues. Un mois apres la tenue du premier sommet francophone, un coiioque portant sur 
les IDLL reunissait plusieurs specialistes qui ont debattu la question. Le coiioque intitule 
industries de la langue. Enjeux pour VEurope s'est tenu a Tours en mars 1986. On y a souligne 
rimportance des enjeux represent6s par les IDLL et identifie les secteurs d'intervention 
principaux. Ailleurs, de nombreuses universites et des groupes dc recherche affilies ou non ont 
elabore des pro jets visant ^ faire avancer les recherches en ce domaine: pensons au Centre 
international de recherche sur le bilinguisme (maintenant appele Centre international de recherche 
sur Tamenugement linguistique), ici m6me a VV .iversite Laval, qui a decide d'accorder une 
grande place ^ la recherche dans les domaines des industries de la langue. 



Mais laissons de c6te ces considerations d'ordre historique pour nous attarder sur Taspect 
technique des industries de la langue, Comme nous Tavons dit plus haut, ies industries de la 
langue off rent des procedes et des techniques qui visent un traitement automatique du matenau 
Hnguistique. Done, les IDLL font intervenir Pinformatique ou, de fa<;on plus generale, une forme 
d'automatisme. Cela peut paraitre etonnant i premiere vue car il n'y a rien dans le terme 



Document de synth^e : Induetries de U langue, Quobec, s d [1987], p, 173, 
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A^I^'ly^'J^ ^"^^"^ "^"^ entendre qu'il s'agit d'informatique contrairement ^ d'autres 
f rlnformatlque^^ ^""^"^ °" lorsqu'elles se trouvent associees 

Les produits offerts par les differentes spheres d'activite des IDLL sont des systemes 
hn^'.'^n automates qui traitent, manipulent. g^n^rent et comprennent le langage 

humBin aussi bien sous sa forme ecrite que sa forme parlee (voir fig 3) 



FIGURE 3: 
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Des systemes qui : 

a traitent le langage humain: les correcteurs automatiques, les lemmatiseurs- 

■ manipulent le langage humain: les lecteurs automatiques de texte; 

■ g6n6rent le langage humain: les synthetiseurs de parole ou les g^ndrateurs de texte- 

■ comprennent le langage humain: les systdmes de reconnaissance vocale ou les svstemes 
de dialogue personne-machine. 

(Ici comprennent est employ^ au sens informatique du terme.) 

Les produits offerts par les diffdrents secteurs d'activit^ sont souvent pr6sent6s de facon 
futuriste ou du moins optimiste. On decrit souvent des decors qui appartiendraient davantage a 
la science- fiction qu'^l la recherche. 

A titre d;exemple de vision futuriste, citons le bureau informatis6 dans lequel un 
ordmateur pourrait saisir un texte automatiquement a la suite d'une lecture optique, corriger les 
erreurs qu il contiv-nt, le traduire et Fexptdier en Europe par voie tel6matique. Ce mfime 
ordinateur pourrait fournir une r6ponse continue dans une base de donn6es H la suite d'une 
requdte formulae verbal -nt par Tutilisateur. Citons 6g9i-Tient le guichet automatique qui 
reconnaitrait la voix de .isateur et lui donnerait C2 qu': a demand^ en r^ponse k un simple 
niessage formula oralement. Enfm, qui n'a jama:«! rev6 oe dieter a sa voiture les operations a 
ettectuer pour se rendre d. la maison apres une journ^e de travail? 

Les titres d'articles portant sur certains dcmaines des IDLL trahissent souvent les vues 
tuturistes des auteurs. 
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Par exemple: 

« Demain Tordinateur polyglotte » 

« Les banques de terminologie de Tavenir » 

« Des machines qui comprennent notre langage » 

« Quand les machines i ecrire auront des oreilles » 



Pensons egalement d Jacques Pitrat qui a d6die son ouvrage intitule, Textes, ordinateurs 
et comprehension^ « au premier programme d'ordinateur qui sera capable de le comprendre »^. 

Nous n'avons donn6 14 qu'un aperfu de ce qu'on peut rediger sur le sujet et il ne s'agit 
pas 14, pr^cisons-le, de passages tires de romans de science-fiction. 

M^me si nous sommes encore loin de ce monde ideal pour certains et cauchemardesque 
pour d'autres, il est difficile de nier les progres considerables qui ont ete realises dans plusieurs 
domaines des industries de la langue depuis la fin des ann^es 1970. On a sou vent cite la 
traduction automatique comme exemple pour demontrer qu'un ;^ysteme informatique ne peut 
traiter les structures linguistiques parce qu'il est incapable de comprendre. La phrase qui illustre 
le mieux Pinccmprehension de la langue par la machine est bien la suivante (voir fig. 4). Cet 
exemple sert bien aux opposants du traitement automatique des langues naturelles. 



FIGURE 4: 



Time fifes like an arrow 



Le temps vole come \jne fl^he 

Les mouches cfcj temps aiment trte fl^che 

Chrwxjm6trez les mouches came trie fl^he 



On voit que la machine confond Time, flies et like qu'elle considere comme etant tantdt 
des formes verbales, tant6t des formes nominales, tantOt des formes conjonctives, (On oublie de 
dire cependant qu'on retrouve des erreurs du genre dans les traductions humaines.) 

Malgre de nombreux echecs et plusieurs annees de reclusion dans les laooratoires, des 
produits innombrables inondent aujourd'hui le marche: par exemple, des systemes de traitement 
de la parole et de traduction automatique pour micro-ordinateur, des interfaces aux bases de 
donnees en langage naturel, des lecteurs automatiques de textes, etc. 

Ce qui expHque ce revirement c'est qu'on a su adapter les objectifs vises a la capacite de 
la machine. En traduction automatique, par exemple, on travaille dans des domaines restreints; 



Jacques Pitrat. Tcxtea, ordinateurs et compr^henaion , Pan»» EyroUes^ 1985. 
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on parle dgalement de traduction assist^e par ordinateur lorsqu'il est question de traiter des textes 
de nature vari6e. En reconnaissance vocale, on limite le nombre de mots d. reconnaltre, etc U 
taut 6galement noter que les capacites de m6moire et de traitement des systemes informatiques ont 
augments beaucoup depuis les premiers systdmes informatiques et continuent de s'accroJtre. 

On a souvent tendance i confondre les industries de la langue et la linguistique 
informatique ce qui est tout a fait justifiable car elles pr6sentent, entre autres, deux points 
communs: d abord la langue et ensuite Tinformatique. Ces deux activit^s, qui s'apparentent par 
e mode de traitement et par le mat^riau, poursuivent cependant des objectifs differents Si la 
Imguistique informatique se sert de I'ordinateur pour traiter la langue, les industries de la ianfeue 
font de meme car elles se servent des acquis de la linguistique informatique mais, de plus, se 
servent de la langue pour adapter I'informatique. Si la linguistique informatique est surtout axee 
sur la recherche, les industries de la langue sont orientdes vers un march^ identifiable, dans le but 
de fabriquer des produits commercialisables. De plus, les IDLL n'interessent plus uniquemcnt le 
hnguiste mais ^galement, le cogniticien, le didacticien et I'informaticien. 

Attardons-nous sat le second aspect des industries de la langue (reprise de la ficure 1) 
celui qui porte plutOt sur I'am^nagement de la langue franjaise. 



FIGURE 1: (reprise) 
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Le^ industries de la langue, comme nous le disions plus haut, s'inscrivent dans un vaste 
plan d amenagement linguistique. II peut paraitre etonnant que les IDLL ne semblent concerner 
que la langue fran^aise car d'aprfes tout ce qui a ete dit plus haut, elles devraient, logiquement 
tou her toutes les langues existantes. Si la langue fran9aise peut se preter d. des traitements 
automatiques, toutes les langues le peuvent et certaines le font dejS: le japonais et Tanglais en sont 
de parfaits exemples. Le probleme se situe ^ un autre niveau. 

Ce n^est un -ecret pour personne que le fran?ais n'occupe plus !a place privilegi6e qu'il 
occupait auparavant dans la diffusion des sciences et des techniques et dans la communication 
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Internationale. L'anglais a pris sa place comme il Ta fait pour plusieurs autres langues, dans de 
nombreux domaines et particuli^rement dans les domaines techniques et scientifiques. Le domaine 
technique favons6 d Theure actuelle est Tinformatique car il touche toutes les spheres de Tactivite 
humaine et la langue qui le diffuse est encore une fois Tanglais, Les d6veIoppements r^cents de 
rinformatique et plus particulierement de Tintelligence artificielle laissent presager des avenues 
tres vastes aux produits ^ en langue naturelle » pla^ant ainsi la langue traitee en position de 
force. 

Notre propos ne vise pas d analyser la question de la perte de vitesse dr !a langue 
fran9aise par rapport aux autres langues ni a en examiner le bien-fonde qui a deji ete fait ii 
plus d'une reprise. Nous voulons plutdt faire ressortir les raisons qui ont fait que les IDLL se 
sont vu accorder autant d'attention et d'int6r€t depuis lleur apparition. 

Les chefs d'Etat ont soulign^, lors du premier sommet francophone et plusieurs specialistes 
partagent cet avis, que les langues qui ne pourront s'industrialiser se marginaliseront par rapport 
aux autres. lis ont mis en evidence le fait qu*il faut mettre sur ! . marche des produits qui parlent 
et qui comprennent le fran^ais, ou, du moins, se preparer ^ le faire pour ttre en mesure 
d*affronter les imperatifs commerciaux de demain. (Ici, nous tombons nous-mfimes dans le piege 
des vues futuristes puisque nous employons demain.) 

Cette affirmation a de quoi faire sursauter !e francophone a qui on a toujours o t que sa 
langue etait une langue litteraire cui ne se preta-t pas A des representations exactes. (Ce que nous 
venons de dire s'applique peut-Stre moins aujourd^hui mais encore De plus, certains t;-rmes 
utilises peuvent paraitre assez 6tonnants lorsqu'on les applique d la langue fran9aise. fndustrialiser. 
transformer, adapter, traitement automatique de la langue et materiau linguistique sonnent faux 
aux oreilles du neophyte. 

Pour resumer ce deuxidme aspect des industries dt 'igue, il suffit de retenir qu'elles 
permettent A la langue frangaise de demeurer dans les ri ^s <>randes langues de diffusion 
Internationale en lui offrant des outils de developpement so* assister le travail linguistique, 
soit pour diffuser des produits issus des connaissances linguist*. .nes, soit» enfin, pour developper 
la langue en vue de son traitement automatique. 

Cest ^ ce niveau qu*intervient toute la question reliee t rinformatique en fran^ais, celle 
qui prOne le developpement d^outils congus pour et par les locuteurs francophones. Cet aspect 
permet egalement d'expliquer les divers points de vue exprimes dans tous les articles portant sur 
les industries de !a langue. 

Par exemple : 

<iLe fran^ais pour survivre doit ^tre min en puce» ^ 

« Et Ic ri&qi2c est que» faut« d« produits « parlant fran^aid la n^ce&^it^ ^unoiniqut; ne p^st? 
de tout son poida en favcur de i' anglophone ». 



3 

Robert Gdly, Le* ttws trtem de &a langfue friu^aise. dans Qa mSnt^resee . novembre 1986. 
^William Baianeo, Lev industries de Im langue, dans Qut-vive international , no 4, p. 74, 
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« Alore que Ton s'achemine ve« un monde oO te dialoguo de la voix humaine ay« 



fabriquent comm«rciaU9«nt des automates qui 

les inaustries de la langue. a I ideologic vehiculee par son concept. 

langue fraUafsr^cri.e'ou iaX' ^r^'^T",' -noyens enlrepris pour trai.er la 

d^F^^'^ « - -irr ".o.e-v'^r ^^^^^^ 

lomrafrrdTs'su""'''"" ' » ^ue nous avo„rSlc"ut fa'50" 

dMndusirierdTu"raru?e,"f T' ""•"""^^ "ne meilleure comprdhension du concept 
reprSent ""i":'*"" des enjeux que de telles industries 



Industrie delaTangue ffatTise! ^"P"^"- -ritao.e 



Vr^toi. S.hl««.,, U. orf™t.,„. I. 6««.pfc„.n d.„, L. N0-..I .h,»„...„T „o 1110, H Bvrl.r .986 p. 38. 
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Titre fgit^ractioti des decisions dans un systdme de G^n^ration 
automatique de textes 



// est generalement suppose quun systeme ae generation automatique textes 
peut itre modularise en une suite de composrmts le premier prenant les decisions 
conceptuelles, les suivants prenant les decisions linguist igues ( i.e. choix lexicaux et 
choix des constructions syntaxiques). Vavant-dernier effectuant les operations 
syntaxiques, le dernier les operations morphologiques. Cette modularisation d un 
systeme de generation repose sur les hypotheses suivantes : 

m les decisions de "haul niveau' doivent itre prises avant les decisions de **has 
niveau''; 

■ les decisions conceptuelles sont de "^haut niveau", les decisions linguisiiques ae 
"bas niveau", les ope:ations syntaxiques de "tres has niveau", les operations 
morphologiques d'un niveau encore plus bas que celui des operations syntaxiques. 

Nos travaux precedents ont infirme ces hypotheses O*abord, nous avons montre 
(Danlos. 19H^a} que les decisions conceptuelles et lin^^. fstigues sont dependantes les 
unes des autres, De ce fait, nous avons congu un modele de generation modularise 
de la fagon suivante : un ""composant strategique'' . prend simultamment les decisions 
conceptuelles et linguistiques. II fournit un ''schema de tex^e" qui est synthetise en 
un texte par un "composant syntaxique"* , Ce composant syntaxique effectue des 
operations telles que V accord enlre un verhe et son sujet. ou la reduction d'une 
completive a une infinitive ( Danlos 1987b). II traite aussi des questions de 
pronominal i sat ion, i.^.. il determine quand une forme pronominale doit etre 
synthetisee. Nous utons montre dans (Danlos and Namer 1988) que les 
questions de pronominalisatio*i mettent en jeu le niveau morphologique dans les 
systeme s de generation produisant des textes en langues romanes. Les decisions 
concernant la pronominalisation - pierre d'achoppement de tout systeme de 
traitement automatique de langage naturel - ne doivent certainement pas etre prices 
en dernier ; de ce fait, les decisions morphologiques ne doivent non plus pas etre 
prises en dernier. 



Notre article commencera par une recapitulation de nos travaux precedents. 
Brievement, il ex poser a. d'une part, pourquoi les decisions conceptuelles et 
linguistiques sont dependantes les unes des autres, d'autre part, comment iniervient 
le niveau morphologique dans les questions de pronominalisation. Ensuite, nous 
ferons un pas supplementaire dans nos recherche s en montrant interaction des 
decisions en generation automatique. Nous montrerons que noire modularisation en 
deux composants - un composant strategique et un composant syntaxique. ce dernier 
traitant les phenomenes de pronominalisation - est encore trap modulaire: certaines 
questions de pronominalisation demanderaient a etre p' ises en compte au moment oii 
les decisions conceptuelles et linguistiques sont prises. Nous n' avons pas encore com^u 
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d'algorithme de g^n^ration qui reflete iint^raction totale entre les niveau conceptueis 

cTXZJl .^T''-'"' ''■''^"'^'(^"^ ^'^^ sysieme de g.n^ration LZ^iZ 
complexity qui est encore sous-estim^e. 
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INTRODUCTION 



Le langage est un phenomene fort complexe. Nous ne serions pas ici reunis pour en 
discuter s il en etait autrement. Le ddveloppeir-. . de niodeles psycho-informatiques durant Ics 
dernieres annees a permis de decrire et d'exp'.iquer certains processus jusqu'alors obscurs. 

Je cite ici Martinet; « Ceci ne doit pas faire oublier que les signes du Sangage humain sont 
en pnorit6 vocaux, que, pendant des centaines de milliers d'anndes, ces signes ont ete 
exclusivement vocaux, et qu*aujourd'hui encore les dtres humains en majority savent parler sans 
savoir ecrire. On apprend A parler avant d'apprendre a lire: la lecture vient doubler la parole 
jamais Tinverse. » ♦ 

En effet, le langage tst essentiellement oral. Mfime que la comprehension de la lecture 
ne peut se produire sans representation mentale des phonemes. C'est ce que je demontrerai 
dans les prochaines minutes. 

L'amelioration des connaissances des processus de lecture a des effets tant en education, 
en hnguistique, en psychologic, en communication qu'en informatique. Le developpement de 
modeles expliquant ces processus a permis entre autres de mettre en place un programme 
d enseignement quebecois du fran?ais au primaire qui soit parmi les meilleurs au monde Cela 
permet aussi une plus grande accessibility ^ la technologie informatique. 



Je definjrai d'abord certains termes, puis je decrirai sommairement le cadre theorique dans 
lequel s'mscnt cet expose. Je resumerai ensuite quelques experiences ayant demontre que les 
representations phonologiques et orihographiques interagissent dans Tidentification des mots 
etape prealable ^ la comprehension de la lecture. Je conclurai cet expose en enoncant quelques- 
unes des implications theoriques et pratiques du modele psycholinguistique qui decoule de ces 
recherches. 



La lecture a ete definie par Geschwind^ comme etant Thabiluv d'extraire le sens de quelle 
que forme visuelle de representation langagiere que ce soit. Cette definition est trop 
generahsante. Elle sous-tend que la comprehension de langages gestuels reieve aussi de la lecture. 
Je crois qu'il faut etablir des distinctions entre langages paries et langages gestuels. Cette 
distinction est necessaire pour tenir compte des differences d'acquisition et de certaines differences 
de representation. Selon Bellugi^, I'acquisition du langage est plus rapide pour les enfants sourds 



*1970, p. 8. 



2 

1985, ctU par Marshall, 1987, tra.hictiun personne'Ie 
^1987. 
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nh« H*nt^„ i c f ''^i! P^"' entendants dont les parents sont entendants Do 
plus. Hanson et Fowler ont d6montr6 en 1987 que les sourds ont acces a des renr^sentatinn. 
Phonolo8»ques pour lire, et ce, m^me lorsque rage de surdity est survenu avant troTans 

Je propose done de d^finir la lecture comme ^tant I'habilet^ 4 extraire le ^fn«! d'nn 
grapheme ou d'un ensemble de graphemes. extraire ie sens d un 

Les representations mentales sont des abstractions de I'envii-nnement Elles sont en 
quelque sorte des connaissances que nous avons tiroes de notre environ .ern^nr' EUes Vrvent^ 

cXtx'e^^ar^^ur^d^^^^^^^^^^^ "."f ' '''"^'^^ simpIiSn de ph.nl'rne 
fwirtnn.J? , '^"^^decortiquement dans un but explicatif et pr6dictif. On d^cortique 
1 environnement en divers types de representations dont trois sont sp^cifiques aa lanMce les 
Tef Charn^l'^.L^ representations orthographiques et les r^'rlStions '^^^^^^^^^^ 

de cet ex^si^ ensembles de representations a sa structure propre. ce qui n'est pas Tobjet 

r« r.nril*',"! "'''"^^'"'^ davantagc d'eiaborer aujourd'hui, c'est le reseau des in«. actions que 
que rerreoS'l^tio; '.'il^^^^^^^^ lecture. Plus specif iquement, mon but est de demontTer 

snV vVht .tt^^JT^^ accessibles en lecture que lorsque les connaisrances qui 

TbUgato^ emen orthographiquement et phonologiquement. 



CORPS 

, l-'hypothese selon laquelle cette interaction existe provient de Conrad^ Cette hypothese 
a ete fortement etudiee depuis^ Je presenterai done quelques experiences parmi plus 
ra^nuuv; ^^"^rr?' interaction. Mais d'abord, il m'apparait*^ important"^ de noter que 

i ZC^n tl PT^ciemes indications de cette interaction. S'irsemWak 

fec^re il n'v a se^on <^^nj.C'ence de la phonologie d'une langue est le precurseur de la 

lecture il n y a selon Wagner et Torgesen^ aucune evidence sur le sens de Tinfluence* Ainsi 

CenenlTdrnf;'""'"V,'^"1 ^"^^"^ ^ ^^"^^'^^ segmentation phon6mfque«: 

nhnn^i ' ^^^^ fT""^'^' les cherchcurs s'accordent maintenant pour dire que la representation 
phonologique est 6 la source de la lecture^" Vellutino et Scalon^* notent par ailleu4 qu'une 
6tude long.tudmale qu'ils ont realise demontre avec evidence la valeur predictive de I'habilite ^ 



4 

1962, ciU par Banks, Oka et Shugarman, 1981 

^Waters et al, 198S; Perfetti «t al.. 1987; Davidson, 1986 antre autrea. 
6 . 

ciU par Bryant et Goewami, 1987. 
^1987. 

^Wagner et Torgeo^n, 1987; Bryant et Goswami, 1987. 
Sloraie et aj., 1979, ciU par Culter et aL, 1987. 
^^Wagncr et Torgegeeen, 1987. 
^^1987. 
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segmenter phonemiquement les mots. Ces resultats sont aussi confirnies par Patel et Soper'^ Nous 
ne pouvons 6tablir de relation causafe entre les representations orthographiques et phonologi:iue«^^^, 
mais ces resultats nous indiquent qu'un lien etroit les unit. 



La premiere recherche ^ ^tre resumee constitue pour !e sujet qui nous interesse le travail 
dont le protocole experimental a ete elabore avec le plus de rigueur. II s'agit d'une etude do 
Van Orden, Johnston et Hale, publi^e il y a quelques mois^^, et portant sur les sujets unitingues. 
La recherche vise k demontrer que les representations semantiques ne sont pas directement 
accessibles par les representations orthographiques durant Tidentification de mots. L'information 
doit obligatoirement passer par les representations phonologiques pour y acc^der. L'induction des 
stimuli s'est bien s^r faite par ^crit. La t4che demand^e aux sujets de cette experience est une 
categorisation. La variable dependante principale est le taux d'erreurs positives de categorisation, 
c'est-^-dire, lorsqu'une personne categorise un mot de fa?on erronee en r^pondant '^oui" alors 
quelle aurait dO r^pondre '•non^ On presente ainsi une cat^gorie semantique, puis un stimulus, 
soit homophone soit un item de contraie. Vous avez des exemples de ceci au No 1 du document 
que Ton vous a remis k la porte. La moitie des stimuli sont des mots, et Pautre moitie, des 
non-mots ou logatomes. La ressemblance orthographique a ete tenue constante pour tous les 
stimuli, ayant tit mesuree par une m^thode elaboree par Weber^^. La ressemblance phonologique 
a 6te contr616e pour les homophones seulement. II y a eu verification de la prononciation des 
non-mots aupres de 15 personnes ind^pendantes du bassin des sujets. 



La non-lexicalite a aussi ete verifiee aupres de 20 personnes toujours independantes du 
bassin des sujets. Finalement, la categorie des mots homophones a ete mesuree avec Techeile de 
Uyeda et Mandler^^ pour eviter les recoupements categoriels. 

La premiere experience de cet article compte 30 sujt , tous eleves d'une mame ecole 
secondaire. Nous n'en savons pas plus sur les sujets. 

Ainsi, pour valider Phypothese, il faudra qu*il y ait moins d'erreurs positives produites a 
rinduction des items de contrdle qu'aux homophones. Les items de contrdle et les homophones 
etant comparativement semblables aux exemples de categorie dont les homophones sont tires, la 
difference de precision dans Texecution de la tache provient de Tinfluence des representations 
phonologiques. L'influence potentielle des representations semantiques est mesuree par la presence 
de non-mots parmi les homophones. En effet, si les stimuli etaient traitcs s^mantiquement avant 
d'etre traites phonologiquement, il y aurait eu une difference entre les resultats des mots et des 
non-mots, ces derniers n'ayant p?s de representations semantiques. 

Les hypotheses ont ete confirmees:il y a significativement plus d'erreurs positives pour les 
homophones que pour les items de contr6le, et parmi les homophones, il n*y a oas de differences 
significatives entre les mots et les non-mots. Certains temps de categorisation ont ete mesures et 
calcules. La seule difference significative est que les homophones prennent plus de temps k etre 
juges incorrects que les items de contr61e. Cette difference, bien que significative est legere. Ceci 
peut etre explique par le fait que Phomophone activelcs representations semantiques de 
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1970, cite par Van Otd^n et :%]., 198H 
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1 homophone lui-meme et du mot dont if provient, cela bien sOr apres atre passe nar les 
representations phonologiques. Les items de contr<Me ne pcuvant renvover qu'aux reprdsema ion 
semant.ques d'un seul element lorsqu'i! s'agit d'un mot, ils seront legerement moins longs! trailer 

Une deuxieme experience dans le mfeme article verifiait si le temps de categorisation et la 
catSs d'n'if .7.'L'n^^ homophone sont differents pour categoriser d'autres exempt des Lmls 
categories dont etaient t,res les homophones. Vous trouverez des exemples de ceci au No 2 du 
nn^a^t protocole permf f trait de preciser I'apport de la semantique dans la tSche demandee. 

Lo^e et^ m^'Ifr/. i"^ ''fr ^^^^"^"^^^^^ »a premiere experience. La phonologie a 

hnmnnhntf !f ^ h ^^^^^^raphe n'a cependant pas ete mesuree puisque les differences entre 
homophones et .terns de contrdle ava.ent ete demontrees significatives dans I'experience 1 et que 
cela ajoutait trop de contramtes k Telaboration des stimuli non-mots pour veriHer un effet dei^ 
"^"^^J"'^ exemples de categories ont ete choisis en fonction d'une experience pilote 
aux su^t^lef Ln^rJm^^^^^^^^ "°"^erux tujets. Durant la presentation de la tache 

vLiatKu taux dTr?^^^^^^^^ '"'^ '""'^"^ ^^^'"'^^ d'execution pour augmenter la 

Les resultats obtenus dans I'experience 2 refietent les premiers resultatsrtant pour le taux 
derreurs positives que pour les temps de categorisation, il n'y a toujours pas de difference 
^gmficative entre les mots homophones et les non-mois homophones. II n'y Tpas non plus de 
difference significative entre les homophones et les nouveaux exemples de categories. 

le, rPnSpit^^'^^''^?"'" "'^-^ ^'interaction directe entre les representations semantiques et 
les representations orthogiaphiques. Le lecteur doit done avoir recours aux representations 

nhfl°^°r!T.' T'lr"^^*"" ^^"^ ^" document. Ces resultats corroborent les ^resultat de 
plusieurs recherches", tout en etant plus valides. 

r^nr*. ^.IT'""^ autcurs^® ont affirmes que la frequence jouait un rd'e primordial v >ns le type de 
representation activees. Des correlations ont done ete tirees des resultats pour edaircir cette 
rhl"nnhnnV'"^'°"''?''"" s'est averee significative:Ia frequence des mo?s dont sont dedv s 
Sci nZf r'roJrrn,.'.Tt' J'erreurs positives des homophones correspondants. 

Ceci porte i uroire que la frequence joue un rOle uniquement du point de vue semantique. 

rnnr^rnaif Jf T^' dichotomic encorc couramment utilisee par Colthart et ses collaborateurs^^ 
concernant le type de traitement phonologique est insoutenable avec les resultats de Van Orden 
iJt l^' collaborateurs. Colthart et ses collaborateurs distinguent le traitement automatique du 
traitement par recodage, ce dernier referant t la decortication de mots inconnus ou tares puisque 
ces mots seraient absents du "lexique phonologique". Cette dichotomie tient selon ces auteurs tant 
pour les adultes que pour les enfants, bons ou mauvais lecteurs quoique de moindre importance 
pour les adultes Les resultats des experiences que nous venons de voir ne r^velent aucune 
difference dans les temps de categorisation des mots et des non-mots telle qu- le predit cette 
dichotomie. Nous pouvons des lors en conclure qu'il n'y a probablement qu'un seul type de 
traitement phonologique, sans pour autant atre en mcsure d'en prec'ser la nature. 

Resumons maintenant les connaissances acquises par cet article. Ces experiences 
demontrent avec evidence I'importance des representations phonologiques dans Pidentificaiion de 
mots. Posons ceci sur graphique. Le graphique 1 du document presente le modele decoulant de 



^^Perfelti ct al., McCutchen et Perfetti. 19^2; Altenberg et Smith Cairns. 
18 

Seidenberg 1985a «t 1985b; McCaan et Besncr. 19»7; Hudson et Bergman, 1985, Ralota «t Chumbley. 1985. 
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L'article e Van Orden et de ses collaborateurs portait sur des sujets unilingues 
anglophones. Or quelques chercheurs^^ presentent rhypotheses que Tinteraction entre les divers 
types de representations ne soient pas les m^mes pour toutes les langues, Ainsi, selon eux, des 
langues comme le serbo-croate ou la correspondance grapho-phonemique est 6levee supposent une 
interaction plus 61ev^e des representations orthographiques et phonologiques. De m^me, des 
langues comme Thebreu ou la correspondance est basse supposent une interaction faible, voir 
nulle. Cette variation 6tant pos6e en un continuum, Tanglais et le franfais se retrouvent aux 
environs du milieu, Le lecteur anglophone ou francophone aurait done un acces facultatif aux 
representations phonologiques durant la lecture. Les resultats des experiences que nous venons de 
voir invalident ces resultats. De plus, la validite interne de Etudes dans ce courant d'idee est 
en g^n^ral relativement .Tioyenne. D'ailleurs, les resultats do Van Orden et de ses collaborateurs 
ne sont pas les seuls & invalider cette hypothese. Seidenbergen 1985 a demontre que m^me le 
chinois qui s*6crit en graphemes ideographiques a besoin des representations phonologiques pour 
acc^der au sens d'un document ecrit. 

Ceci nous amene ^ parler des sujets bilingues. Malgre qu*aucune etude n'ait verifie 
directement Thypothese d*interaction entre les representations orthographiques et phonologiques, 
r^tude de plusieurs recherches peut se reveler un bon indicateur de cette interaction, compte tenu 
de rinteraction chez les sujets unilingues. 

Lukatela et ses collaborateurs ont demontre des 1978 que des orthographes differentes sont 
codifiees dans des ensembles de representations distincts, Leurs sujets n'etaient pas bilingues, 
mats ils utilisaient deux systemes graphemiques pour une m^me langue. Si nous n'etudions que 
le cdt6 orthographique de leur analyse, la situation s'avere comparable ^ une population bilingue 
dorit les systemes orthographiques sont diff^rents. Malgre rigueur qu'ils ont observe, ils sont 
les seuls d avoir mesuie cetie distinction. Aucun autre groupe de chercheurs ^ ma connaissance 
n'a tente de repliquer ^ ces resultats comme ce devrait habiiuellement ^tre le cas. II faut done 
attendre une confirmation avant de considerer ces resultats comme un acquis. Nous ne pouvons 
cependant pas les ignorer. Nous y reviendrons. 

Altenberg et Smith-Cairns^^ ont pour leur part etabli c;ue les bilingue sont deux ensembles 
de contraintes phcnotactiques distinctes, mais qu'ils sont interactifs quand les conditions 
experimentales demandent de la rapidite. En effet, les chercheurs laissaient tout le ti n>ps cksire 
pour juger de la lexicalite de mots, les sujets bilingues ont des resultats similaires a ceux des 
unilingues, alors que lorsque la tiche requiert un jugement rapide, les resultats des bilingues sont 
significativement plus lents que ceux des unilingues. Ceci permet de poser que les sujets bilingues 
ont deux ensembles de contraintes phonotacttques distinctes. II ne faut cependant pas en conclure 
que les bilingues ont sans equivoque deux ensembles de representations phonologiques distincts 
Malgr6 que le protocole d'Altenberg et Smith-Cairns soit valide, 'nalgr^ que les re iiltats de 
certaines etudes en psychologic tendent a optcr en cntte direction' ^ ^vonsfration n'cn a pas 
t\t faite. Les contraintes phonotactiques ne sont qu'une part ? de tinWenu^nt 

phonologiques. Ces resultats sont cependant de tres solides indicate 1es hypotheses 

plus poussees. Or, il est plus difficile d'etablir un modele d'identificaiio. ^ tn lecture pour 

les sujets bilingues avec les informations actuelles. La recherche en bilinguismt net en cause un 
nombre faramineux de variables, ce qui ralentit giandement les travaux, Etant donne le nombre 
relativement plus restreint de psycholinguistes dont le travail porte sur les processus cognitifs des 
bilingues, le retaru qui existe par rapport a la recherche sur les processus cognitifs des unilingues 
est leger. 



Frost et al., 1987; katE et Feldman. \m\ I v^Htela et al , 1980 

Paivio. et al., 1988; Paivio et Desrochers, 1980; Paivio ♦^t Lambert, 1981. 
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CONCLUSION 



bilinaue^^ Sit/^Tnl^ ^^'^ totalement differents des unilingues aux 




grand con.reie de variables parasUerCeVmT.h^^ogTe „ ^ s^b^ tS;^Z!^^7e.Z^^^^^^^ 
deuxiemement, elle ne permet pas d'etud.er la structure interne des representations phonologiques 

d^Tn ~4™r:Xnne"""""'"'''"^ ""^^ ™»'-™ conntsrance 
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Phon6tisation, conversion grapheme-phoneme, phon6misation, transcription orthographique- 
phonetique, transcription phonetique automatique ... : le terme n'est pas fixe. Quant k la notion, 
elle est simple: la phon6tisation automatique de textes consiste a produire automatiquement une 
transcription phonetique d'un texte 6cnt. Depuis 1967 (B. Pratt et G. Sylva), il existe des 
programmes de phon^tisation automatique de textes fran9ais. L'objectif de cet article 
est de faire ie point sur les mdihodes utilisees dans ce domaine si souvent aborde. En particulier, 
nous insisterons sur une distinction entre la phon^tisation automatique proprement dite 
et les aides automatiques a la phondtisation, qu'on pourrait aussi qualifier de « phonetisation semi- 
automatique ». Sous !e terme de phonetisation, nous entendons aussi bien celle qui se fait par 
consultation d'un dictionnaire 6Iectrcnique que celle qui se fait par Tintermediaire d'un systeme 
de regies, ou «phon6tiseur par regles». 



I. LES BESOINS 

Pourquoi phonetiser automatiquement des textes ecrits? Cette operation r^pond en fait 4 
plusieurs besoins industriels 4 plus ou moins long terme et d^bouche done sur autant d'appHcations 
informatiques dans le domaine des industries de la langue. U s'agit en fait de tous les cas 
d'utilisation de transcriptions phonetiques dans le traitement automatique des langues naturelles; 
en effet, chaque fois qu'on a ^ manipuler explicitement des transcriptions phonetiques, on doit les 
^laborer tOt ou tard , 4 partir des mots ou des textes orthographies normalement. 



1.1 Coastructioa de dictionnalres ^lectroniques 

Parmi les besoins auxquels repond la phonetisation, !a construction de dictionnalres 
electroniques semble ttre celui qui a le plus d'avenir: il recele des potentialites technologiques et 
il a aussi un inter^t linguistique intrlnseque. II s'agit d'introduire des transcriptions phonetiques 
dans un dictionnaire electronique, et ce automatiquement ou semi-automatiquement. Cette 
methode n'est pas rentree dans les moeurs, ne serait-ce que parce qu'il existe peu de dictionnaires 
electroniques qui donnent la prononciation. Elle commence cependant 4 etre utilisee. Le 
dictionnaire phonetique obtenu est destine a servir da !S des projets de reconnaissance de la parole 
(F. Neel, M. Eskenazi et J. Mariani, 1986; M.R. Carapiperis, 1988). W. Daelemans (1988) 
mentionne Tutilisation d'un pbonetiseur de mots neerlandais pour la construction d'un dictionnaire 
imprim^. Dans ces trois cas et dans d'autres, il s'agit en fait d'aides automatiques i la 
phonetisation: da.is des cas d'ambiguite tels que la prononciation ou la non-prononciation du s 
final dans les noms ta (ta] et ailas [atlas], de m^me que pour les emp; ants Strangers tels que le 
nom posief (poster), un phonetiseur donne des resultats approximatifs tels que [taj, [atla] ou 
ipDste] qui sont ensuite verifies et corriges a la main par un phoneticien. Le 
dictionnaire DELAP^ (E. Laporte, 1988) est cngcndr^ d'une fa^on entierement automatique a partir 
d'un autre dictionnaire, le DELASP, qui contient les formes orthographiques des mots 



Centre d'^tudes et de techerches en inform.Uique linguistique, 17, coure Blaise-FaBcal, 91000 EVRY. 
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2 on K*^f infoTmations cod6es sur la fafon dont leur orthographe doit 6tre interoretee en cs 

"1^' ^"t "^"^P^^ P°"' di^JX's^^if Permet la maintenance dJ oEL^^^^ out 

est assur^e par la maintenance du DELASP et par une phSietisation automat"rue 

il est pr^visible que les phon6tiseurs seront de plus en plus utilises oour r^lahnratinn 
1 extension et Ir. mamtenince de dictionnaires 61ectrcniques phoni^^iruer Q^^^^^^^ 
ces derniers, ils permettent 4 leur tour d'effectuer une phon^tisation autLadque pa consS^^a^^^ 
t^nf^nt ""/"^"^^ linguistlque car ils constitueront une r^f^rence InsTattS^^^^^ 

I Sue 'etanrurin^LTen??. i?f ^"^ T^'^V^nce de cette fonction: urdictSai^e 
6tre fiab?e instrument de r6f6rence, la phonetisation qui permet de le construire doit 

1.2. Synthase de parole par rintermidlaire de textes phon6tiques 

« syn^»^se de messages oraux est i'application la plus 6vidente et celle qui a et^ mise en 

S faft " "J configurations ou la syn?hise de la parole 

se tait par 1 intenn^diaire d'un texte yr^semi sous forme d'une transcription Dhonetioue it 
n^Hnnc^* synth^tiseur de parole qui elabore alors un signal de l^role S^^^^^ 
parlons done pas des configurations dans lesquelles les mots, les phrases ou les textes oul 
Tar^S ouX??,? ' ^'"^ Pr^enregistr^s et stock^s s.pa;.m':nt soTfo^e dU'^n^^^^^^^ 
^ ?ul ^ ^^"^ ^" comprim^. Cette derni6re situation ne rel6ve d'ailleurs n« Hp 

rp5f:LtrTnt'm2S[r;"; f ^' la compression de la parole"' N^tonT^^^uMa'synt 

s'accrot o dp nnt h ! ^^«"«="Pt>5>ns phon^tiques s'impose lorsque le nombre de messages 
' nombreuses applications industrielles potentielles impliquent de oouvoir 
7 H ri.""^ ^^''^'^ messages: de I'ordre de 10^ 10^0 ^^-^^ 10^° messases df^^^^^^^^^ 

r^aiiS oa^iomb^^^^^ ^"^^^"^ P^"^ enregistres sepaSt n Xe 

trtns?riSs%^^^^^^ °" — ^ ^ "interm'ediaire de 

pr6cises'*et"ex'lctJs" ^^^'.1 u?'^' fu.ilement intelligibles, les transcriptions doivent 6tre 

precises et exactes. Ce n^sultat pourrait a priori 6tre obtenu de deux facons" soit 4 Taide d'un 

ctn^rria' mJrn 1°"^''''"'^^ P»»o^'^tiques produits devant et?e ensuite v'edfi^s et 

p?e^lJe sofutrn Vt J? ^^''TTv' ^ '^'"'^ Phon^iseur automatique fiable. La 

premiere solution est tout 4 fait r^aliste. La deuxidme est plus difficile k mettre en oeuvre 
surtout pour les langues dont Torthographe est tres ambiguS, comme le fr^ncaS el "anglaTs ' 

1.3. Aide k la correctloA orthographlquc par phon^tisatloj 

II s'agit ici d'une utilisation de transcriptions phonetiques dans des svstemes oii la namlp 

dfctlnnn,^/. p?"/^^'' ''"^'-^f^^^^^^^^rntnt. Une des aides envisageables consiste a extr^h^e ?un 
dictionnaire electronique les formes correctes qui se prononcent comme la forme erronde dans ce 
cas des fo.mes du verbe racomer. Cette met!. ode a €t6 utilisee pour le fran?. s (J C MarcovicT 
1987; E. Laporte, 1988) et pour le neerlandais (B. Van Berkel et K. De Smedt, 1988) l^fforS 

Qu re?/t r n^Sr:/? ''^nterm^diaire d'une transcriptfon phon6t que 

qui revfit un interfit particulier si on considdre Timportance des procedures de correction d'erreurs 

TZZTrTr ^"^^"^^'^"^ -"^^ "tilis..'eurs, car^ceftexTe^nrsont^mai: 

2. LES CARACTtRISTIQUES D UN PHONfeTISEUR 

pas auss?'fiS^'prnw"nlc? " d^^'f^^^'ites leagues. Tous ne sont 

pas aussi fiablf et n ont pas les m€mes performances. Ils different par un certain nombre de 
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paramdtres. Nous aliens passer en revue les plus significatifs de ces parametres, d'abord pour 
caracteriser les phon^tiseurs d6j^ existants, mais aussi |K)ur les situer par rapport aux besoins 
industfiels auxquels des phonetiseurs devront r^pondre. Nous examinerons notamment une 
importante contrainte i resi»cten assurer la fiabilit6 de la phonetisation, du moins dans deux 
situations, la construction de dictionnaires ^lectroniques et la production de textes phon6tiques en 
vue des sorties vocales. Dans le cadre de la correction orthographique par phonetisation, la 
fiabilite est moins importante, car il ne s'agit alors que de produire des suggestions de correction 
qui seront de toutes fajon soumises au choix d*un utilisateur. Nous evcquerons en priorite les 
caracteristiques li^es k la fiabilite. 



2.1. Fonctionnenient automatique ou semi-automatique 

Consid^rons les situations industrielles ou de recherche qui n^cessitent une phonetisation 
fiable. Dans ce cadre, un phonetiseur ne peut 6tre qualifie d'entidrement automatique que s'il 
donne par lui'-mdme des rdsultats fiables. Dans le cas contraire, ces r^sultats doivent etre revus 
et corrig^s k la main, et Tensemble de Toperation prend Taspect d*un processus semi-automatique: 
une transcription approximative est eiaboree automatiquement puis achev^e a la main. La partie 
manuelle de Toperation demande alors un personnel specialise, mais si les resultats de la partie 
automatisee sont suffisamment bons, Tensemble est plus rentablr que de produire les transcriptions 
entierement & la main. 

En fran^ais, ce sont des methodes soit entierement nianuelles, soit semi-automatiques qui 
ont ete utilisees jusqu'ici pour obtenir des transcriptions exactes. En effet, des phonetiseurs par 
regies fiables faisaient entierement defaut, et les dictionnaires electroniques ne font que 
commencer k se d^velopper. La phonetisation semi-automatique peut encore rendre des services 
appreciables, mais Tapparition d*une phonetisation entierement automatique, lorsqu'elle est 
realisable, permettrait de reduire le temps de production des textes phone tiques et de s'acheminer 
vers une synthdse de parole « en direct par exemple. 



2.2. Mainteiaance 

Un produit de traitement automatique des langues n^turelles, qu'il s'agisse d*un logiciel qui 
comporie des donnees Hnguistiques ou d'un systeme de donnees linguistiques, necessite une 
maintenance, c'est-4-dire un entretien qui consiste ^ corriger ks erreurs, k elaborer des extensions 
qui correspondent k revolution des besoins des utilisateurs, et i repercuter revolution de la langue, 
qui est rapide dans les domaines techniques. L*entr^ n d*un nhonetiseur consiste done, hormis 
la correction d'erreurs, k prendre en compte de nouv, ,ux mots, c'est-S-dire des mots auxquels 
on n*avait pas pense et des nedogismes, Le coOt de cette activite de maintenance n'etant pas 
negligeable, la facilite d'entmien d'un phonetiseur est une donnee significative. Les cas les plus 
favorables de ce point de vue sont les suivants: 

■ si la phonetisation se fait par consultation d'un dictionnaire. La maintenance 
se ramene alors k Tentretien du dictionnaire, pour lequel il existe des methodes; 

m si le phonetiseur est couple avec un dictionnaire elecfronique, Apres toute 
modification, on peut en evaluer les consequences par comparaison avec le 
dictionnaire; 

■ si le phonetiseur peut etre construit automaiiquement a partir d'un dictionnaire 
eiectronique phonetique. Des etudes sont en cours sur cette interessante 
possibilite. 
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2.3. TaSIIe du vocabulaire 

Tout phon^tiseur de mots peut Stre caracteris^ par TensembSe des mots au'i! transcrit 

JSLT'et laT.-rt.T ^^"^ ^^^'^^ vocabulaire du phonltis^ur^^ U tX d 
vocabulaire et la facilite de la maintenance sont liees; plus le vocabulaire est 6tendu nhi.: f 
maintenance pr^visible est r^duite. Elle ne se reduit jamais ^ z^ro en ratson de Involution de la 
tongue, mais construire un phon^tiseur sur un vocabulaire limi 6 6quivaut ^reporter sur a 
maintenance le probl^me du vocabulaire €lud€ lors de la construction, et done a renS e d'auLnt 
plus cooteux le d^veloppement du phondtiseur dans une utilisation industrielle LentueHe 

;i nVto;F«f ^"ki^'T P''0'^»'^P«ndant longtemps. En I'absence de dictionnaires 61ectroniques 
1 ? -.iJh^^ ^°k'?^? de construire un phon<Stiseur sur un vocabulaire ^tendu, ni mgme d'"value; 
n 9 9l;iuMe ftraisV'''^^^ L'utilisation de dictionnaires pour la phon^tfsTtion debute 

fnr JZ ^h.c i Tep) mais le dictionnaire est encore rudimentaire: il comporte 2000 

iVrTp contributions plus r6centes (G. P^rennou et M. de Calmfes, 1986; E Laporte 

1986, P. Trescases et M. Crocker, 1988), presentent une Evaluation de la taille du vocabulaire et' 

Sri^^n'?" ^^"^^^ '•^^"l^ts plus fiables er?acilher ll 

maintenance. On note la meme tendance pour d'autres langues (W. Daelemans, 1988). 

2.4. Rapidity 

imoeratifs d^nP^Srnf/n ^^""'^ '^"^^^^ significatif que les 

imperatils de performance et de fiabilit6 que nous venons de mentionner. En effet, lorsque les 
resu tats son approximatifs, ils doivent etre revus i» la main, ce qui est plus lonret plus coO^eux 
fl^e lorfJ^ f r L^efficacitd d'un phon^tiseur S'est done une donnressentielle 

que lorsque la fiabili e importe peu, par exemple pour la correction d'erreurs d6tect6es Mfime 
nTJL"^^^' fK^'^^^'i^ ^""^ technologiques et les progrfes dans la rapidite de 

Xe TeTchninuTnt '^'r'"' '""J^'' ^^^^'^"^^ independant des amfes et qui 

reieve de techniques distinctes, aucunement sp^cifiques de la phonetique. 

2.5. Nombre de solutions en cas d'amblguKt^ 

Lorsque Torthographe est ambtgud, par exemple dans le cas ds emprunts etrangers qui ne 
H^t^^^nf ^^"""^^ s'^crivent, comme poster ou charier, it n'est pas toujours facile de 
2omh?P transcription, mais il est toujours possible de produire un petit 

exemoL l^^JTf''''T\ f^'"^'. ^f^"^'"^' transcription c orrecte, *^par 

exemple. [p^ste], f poster], [ postoBrJ. Cette possibility, jusqu'd present, n'a €t€ mise a profit 
que dans quelques systfemes (F. Ndel et al., 1986; E. Laporte, 1988) E le est pourtant assez 
r^aliste SI deux conditions sont r^unies: (1) que la fiabilite importe peu et (2) que les r^sultats du 
phonetiseur soient soumis ^ un operateur humain qui choisisse pirmi les solutions. 



2.6. Pr^c/stons dans les transcriptions 

Touies les applications requi^rent des transcriptions prdcises, sauf la correction orthrgra- 
P«iT;JIfi"' ^^"^ f", transcriptions moyennement precises donnent de meilleurs r6si Itats. 
far exemple, si [cb J et (e J sont confondus dans Ics transc- iptions, la forme emprunter pourri etre 
proposee pour corriger la forme empreinter. Certains r .onetiseurs du franfais, concus p^ur la 
correction orthographique, donnent ainsi des traiiscnpuons reiativement impr^cises, par e-emple 
dans lesquelles [s] et [z] sont confondus. ^ e .cmpie 
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2*7. Vamtions phon^tiques Hbres 

Nous parlons de variations phonetiques libres lorsque deux prononciations sent interchan- 
geables, par exemple pour le verbe Her qui peut se prononcer [ije] ou [Hj^^]. Cette situation est 
courante pour le fran^ais: on peut citer, outre Texemple precedent, Teffacement facultatif de 
certains e muets {projeter)^ certaines lettres orthographiques doubles piononcees soit doubles soit 
simples (illegal), certaines liaisons facultatives {Luc est indemne), etc. Ces problemes sont connus 
mais la description de leur extension lexicale en est S ses balbutiements. En face d'une variation 
libre, trois solutions sont envisageables: 

■ choisir arbitrairement une des variantes et produire seulement la transcription 
correspondante; 

■ produire toutes ^ s transcriptions equivalentes ou une selection d'entre elles (F. 
Neer et al., 1986); 

■ proc *ire non plus des transcriptions phonetiques mais une transcription 
phoi'^mique, plus abstraite, dont on peut ensuite deduire automatiquement les 
variantes phonetiques libres (F. Dell et M. Plenat, 1985; E. Laporte, .988). 



La premiere solution est la plus simple: elle a Tavantage de pouvoir atre appliquee en 
Tabsence de toute connaissance sur les variations phonetiques libres. En ruison du peu de donnees 
dont on dispose sur le sujet, c'est cette solution qui est souvent adoptee Elle se justifie 
pleinement dans le cadre de la synthese de sorties vocales: lorsque toutes les variantes sent 
interchangeables, il faut en choisir une. La deuxieme solution, et la troisidme qui met en jeu des 
formalismes plus 61abores pour retrouver les mSmes informations, se justifient pour les autres 
applications. En effet, un dictionnaire electroniqut; etant un instrument de reference, il est 
naturel que les variations phonetiques libres y soient representees, soit expHcitement, soit par 
rintermediaire d'un formalisme abstrait. Cette specification des variations libres sera notamment 
indispensable ^ la reconnaissance d^entrees vocales varices. 

Les divers phonetiseurs different par la nature et la quantite des variations phonetiques 
prises en compte dans les transcriptions. Le manque de donnees systematiques sur les fails 
phonetiques est sensible ici. 

Ces variations posent \z probleme du niveau d'abstraction des transcriptions. Ce probleme 
n'a gu^re ete aborde, jusquMci, dans le cadre du traitement automatique; pourtant, suivant leurs 
utilisations, les transcriptions doivent Stre ^ des niveaux differ^nts, Ainsi, les transcriptions 
transmises ^ un synthetiseur de parole doivent etre purement phonetiques, c*est-i-dire specifier 
une prononciation bien precise. Au contraire, un dictionnaire electronique destine i produire 
toutes les formes flechies et leurs variantes phonetiques comportera plutdt des transcriptions 
phonemiques. Cette notion de niveau d'abstraction rejoint la difference entre phonetique et 
phonemique ou phonologic, qui est fondamentale en linguistique. 



2*8. Phon^iiseurs de mots, de termes ou de phrases 

On peut parlcr d'un phonctiscur dc mots lorsque les mots sont phonetises independamment 
les uns des autres, par exemple pour la construction d*un dictionnaire ou pour la correction 
orthographique de mots. Cette methode est insuffisante pour iranscrire des phrases, pour plusieurs 
raisons sur lesquelles nous reviendrons dans les trois sections qui suivent. Or les sorties vocales 
t pre voir seront r<;';rn*icl!ement des phrases, tellcs que Le Cuhain N... a rem parte aujourd'hui la 
medaille de bronze de saut en hauteur^ oj des nominaux, teN que Jrfyi<^rn:rnt de capacite 

dans la ruve princ pah 
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2.9. Variations phon^tiques cooditlonn^es 

var;<»«♦.c^l/*"^^'*'"* phon6tiques conditicnnies s'opposent aux variations libres en ce que les 
variantes ne sont pas mterchangeables: elles o.it des conditions d'emploi differentes Or ces 
variations ne sent pas toujours indiqu6es -xplicitement dans Torthographe. Ainsi, le Drorom lis 

J^riJm^ ""L, ^ les admet deux variantes phon^tiqaes conditionn^es Ces 

Zr n rnHn- A \ P'"^P"P^"^^s que les variations litres, car on est oblig6 d'en tenir compte 
V^Zu oiuZ ^'^""^"P^'^"^ ««<;tes des phrases Or elles jouent un rdle non n^gligeable dans 
lintelligibiht6 des phrases: une sortie vocale dans iaquelle des liaisons obligatolres sont omises ou 

d?ve« na^nlJ fif J- ' ^^"'P^e"^^^ Ces variations sont conditionn/es par 

la compaSi^on entre ^'"^ ^^"d'^'O"*' lexicales, grammaticales et syntaxiques, comme le montre 

Luc a six ans. et Luc en a six a la main. 

p'une part, ces conditionnements sont mal connus; d'autre part, ils font apnel ^ des 
informations qui ne sont pas representees explicitement dans les textes. 

2.10. Param^res prosodiques 

.';„toii J^-1-J"i^^''^^^^ destinies a servir de sorties vocales, I'intonation joue un rdle dans 
ou f ?ntnS' / 'f.'" !' des valeurs des parametres prosodiques: la hauteur du son 

loIltSf n rinten.it6 (ou volume) et la dur6e des dl6ments phonetiques 

(segments, syllabes, pauses), ainsi que des variations de ces parametres en fonction du temps 
crest pourquoi des sorties vocales ne sont plus conce/ables sans une d^ermination des variations 
de ces parametres, ce qui implique de reconnaitre la structure prosodique des phrases Cette 

ZZ':Z1inn'lT^'^ ^ ''''' ^i^^'y^^ grammaticale et syntaxique des phrases, et donc la 

consultation de dictionnaires morphologiques, grammaticaux et syntaxiques. 

2.11. Analyse grammaticale 

«,ro^^! ^^^^ probldmes que nous venons de mentionner: variations phonetiques conditionnees 
et parametres prosodiques, rendent necessaire la connaissance d'informations grammaticales et 
syntaxiques sur les phrases ^ phonetiser en vue de sorties vocales. A cette necessite s'ajoure celle 
frfnotPmnc . ^91^.%'^^,^^' homophones tels que cot4veni. Ceci est connu uepuis 

longtemps, mais il est difficile de prdciser quelles informations grammaticales seraient suffisantes 
pour etabhr automatiquement des transcriptions fiables et exactes. Elles comprendraient au moins 
ICS elements suivants: 

■ Tanalyse des determinants du groupe nominal pour effectuer certaines liaisons 
obligatoires ; 

■ Tanalyse des particules pr^verbales pour en effectuer d'autres; 

■ la delimitation des groupes nominaux et des rapports syntaxiques entre eux pour 
determiner la structure prosodique, 

Etant donne Tetroitesse des relations entre les differentes sous-tSches de I'analyse 
syntaxique, ces trois necessitfs en supposent d'autres, notamment la determination des categories 
grammaticales des mots apres la consultation d'un dictionnaire grammatical. Finalement les 
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opinions divergent en ce ^ui conceme la precision et la quantite des informations grammaticales 
^ recueillir. Souvent, les luteurs qui en font une Evaluation a priori minimisent cette precision 
et cette quantity, alors que ceux qui les evaluent a posteriori par des tests sur un systeme existant 
constatent g6n6ralement qu'une analyst syntaxique plus approfondie ameliorerait la qualite des 
sorties vocales (J. Allen, M. Sh. Hunnicutt et D. Klatt, 1987, par exemple). 

Comme la phonetisation automatique etait con^ue d Torigine pour la synthese de la pnrok\ 
de nombreux phonetiseurs de phrases comportent une phase d'analyse grammaticale destinee A 
recueillir ces informations. La nature el la quantite des informations obtenues dependent d'abord 
du dictionnaire gra-^imatical utilise. En fran^ais, G. Tep (1979) est le premier utiliser un 
dictionnaire gram v al. A cetlc epoque, les dictionnaires ^lectroniques grammaticaux actuels, 
beaucoup plus ^ttr^ a'e^istaient pas encore, ce qui incitait certains concepteurs de phonetiseurs 
4 tenter de r6unir c^:^ j if -mat ions grammaticales sur les mots sans avoir recours 4 rn dictionnaire 
grammatical. Mais ies c regories grammaticales et les traits flexionnelf Ha^^ • ^nt pas de la 
forme des mots pjir ^ regies simples, ni m6me par des regies fiables, d*ou les difficultes 
rencontr^es pour n ett au point ces systfemes (B. Prouts, 1979; N. Catach, 1984; M. Divay, 1984). 
Des solutions appr jcii< . s et des listec partielles n*ont permis d'obtenir que des donnees fragmentai- 
res et peu fiablef 

L'appariiion de dictionniires morphologiques et grammaticaux tels que le DELAP resout 
cette partie du probleme, mais ne suffit pas k recueillir toutes les Informations grammaticales et 
syntaxiques neccssaires, ni mdme ^ resoudre les ambiguites lexicales. Ainsi, Tanalyse syntaxique 
necessaire pour cela constitue toujours un obstacle. Le phonetiseur le plus avance dans cette 
direction 4 Theuro actuelle semble t*tre celui de J. Allen, M. Sh. Kunnicutt et D. Klatt (1987) pour 
Tanglais. 

Rappc Ion: 4ue cette difficulte n'apparait pas si les sorties vocales sont le resultat d*une 
generation mtomatique du texte ou d*une traduction automatique, car fanalyse syntaxique du texte 
produit est ah rs superflue. 



3. REA JSATIONS ET POSSIBIMTES 

Les V)mbreux phonetiseurs par regies realises depuis plus de vingt ans sont constn.its i 
pariir de les ^enerako sur la correspondance entre Porthographe et la prononciation. lis 
s'opposent aii dictionnaires phonetiques, plus recents, dans lesquels chaque mot est tra. e 
^•linarement. Nous allons examiner les uns comme les autres. 



3.1 • Phonetiseurs par rigles existants 

A examiner les nombreux phonetiseurs par regies existants, on a rimpr?ssion que chacun 
represente une tentative de compromis entre des contraintes incompatibles. 

D'une part, nous avons vu la necessite d'assu-rer la fiabilite des transcriptions et la facilite 
de !a maintenance, de prendre en compte certaines variations phonetiques, et d'exploiter des 
inl ^nations grammaticales. Ces contraintes sont d*autant plus pressantes que la majorite des 
ph( netiseurs par regies ont 6te confus en vue de la synthese de sorties vocales. 

D'autre part* i n certain nombre de circonstances ont longtemps fait obstacle ^ la realisation 
de ces objectifs. L'ausence de dictionnaires electroniques emp^chait i la fois de construire un 
phonetiseur sur un vocabulaire etendu, d'evaluer la taille du vocabulaire des systemes, de recueillir 
des informations grammaticales sur les mots des textes, et m^me de reunir des informations 
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syst^matiques sur les variations phon^tiques et !eur extension lexicale. Ce manque se comble oeu 
a peu. Un autre facteur qui incite ^ des compromis est le souci de limLTlertemps de calcul 

^Td'oLT^'Z^r '""-^^^ ^ ^ P^^^'^""^^^ - vo'abulire plus 

Jpr?.inJ ? ^'"^"^ ^^"'P^^ variations phonetiques; un autre produit 

SnAoT h.k"' "'a.s se passe d'informations grammaticales; etc. Chacun de ces 

S aue C'es? n^^^^^^^^^ s^parement dans I'e cadre d'une rillisat on 

Zi luZ 'i^^^^^^ "^f"^ ^^6^' '^es realisations si nombreuses 

ont vu le jour dans ce domaine. et qu'on en construct r^guli^rement de nouvelles. 

les oh, Jnpi^^it'nnt? '^"^^^^i^ dp compromis est d^favorable a des recherches syst^matiques sur 
les obstacles rencontres pour r^pondre aux besoins industriels qui s'annoncent: lever ces Cstacies 

Sr^n''/" ^r^''^: P^'^' "^^^"^"^ Connies linguistiques formeS^^ 

d autre part am^horer la consultation rapide de dictionnaires electroniques etendus. 

3.2. Recherches actuelies 

actuelles''Tu7\I"nhnnl'tW^ ''"^ nous avons 6numerees dans la section 2, la plupart des recherches 
actueiles bur la phon^tisation par regies portent en fait sur deux points. 

;nfnrn,ol- ^'^^'^ d'abord des strategies de transcription. Les phonetiseurs utilisent parfois des 
informations morpholog.ques sur les mots, ou des informations syllabiques obtenues par une 
analyse de 1 orthographe des mots. Dans d'autres langues que le fran?ais, on ^galemenria 
pos.tron de Taccent tomque. Ces strategies se pr^tent ^ de nombreuses variantes e combi^aisons 
DeuiemTtrl'°"' I^^.^Phologiques. syllabiques et accentuelles ne sont pas toujours obliga?i^^^^^^^ 
cJZniL/n1/''^'l''''f- °" ""Pl'^'^e.^' Peuvent etre recueiUies ou exploitees dans un ordre 
chronologique particuher ou par diverses methodes. Pour la phonetisation de Tanglais de 

iu n'^e's^i/!^.^.^" r '"f<>^'"^^r^ morphologiques et accentuelfes sont necessa^e^, ce 
qui n est le cas qu exceptionnellement en frangais (par exempie dans anUawmigue). 

I souvent aborde est celui de la structure du logiciel, du formalisme dans 

lequel les regies sont exprimees, et des relations entre les regies et le reste du logicieT cS regies 
L'nfrf".' ■ 5' ^^'■"^^ '^"^ P^^^^"" apparente Pensemble d'un sy time 

S^fnn ^I'l '"IP^'.';?^ '""'^^P'^^ e^«"^P'e en ce qui conceJne iS 

fettre et des nLnf^l\ ^^^^^^^ '^^"^ representation des 

«!!cI^K r* .P^°"*"^" soit par des symboles uniques, soit par des faisceaux de traits- la 
possib.l.te d'utihser un mfime formalisme d'expression des regies pour plusieurs languls ou pour 
Plusieurs theor.es phonologiques; le degre de dependance enfre les regies et PalgorSe qui les 
oe?m2t?^/^'"'T'? ^'t^'" connexionniste... Toutes ces vafiantes de^ programmation 

permettent d implanter en machine, sous des formes diverses, les regies de transcription qu^ sont 
oujours du meme type mathematique: des applications locales, c'est-ji-dire des appSions dan 

Sun comeTe^tm^ ^'^'^^ ^^^^"^^ ^" de sa^tale"? 

maJntPn^hHiif Ho^ recherches se situe dans la rapidite d'execution et dans la lisibilite et la 
maintenabilite des programmes. Toutefois, ces enjeux dependent egalement d'autres Tacteurs aui 
iTrT'^u."" J!^^^^'"-.^"^- ^ffet, remariuons qu'il ne s'agit pas icfde la pStlntion 
de nhK i^n n!f,r "J^'^ phonetisation par regies, dont Tutilisation se rest, ^nt 

de plus en plus aux seules procedures semj-automatiques de construction et de maintenance de 
f t TIT ? T'T"" phonetisation. Or. comme la rapidite de I'ensemble du prc^essus 
n • P P^'^'^ man .elle, la rapidite de la partie automatisee importe 

mo ns qu ,1 n y parait. Quant a la facilite de n aintenr.nce des phonetiseurs par regies, elle deV-nd 
flf^ ff,3 ^^^""l"^ yocabulaire pris en comptc que de la formulation des regies. Les cri eres 
informatiques de quahte, notamment la fiabilite, la rapidite et la maintenabilite\ mettent en jeu 
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dans le cas qui nous occupe, les donnees linguistiques. On ne peut done pas considerer la qualite 
informanque des systfemes en faisant abstraction des donnees linguistiques qu'ils manipulent et 
notamment de leur precision, de leur quantite ou de leurs possibilites d'extension. 

En ce qui concerne les recherches menees sur ie contenu des dictionnaires electroniques 
phon^tiques, elles concernent 

■ le reperage, la description et la representation formelle des variations 
phon^tiques h Tinterieur du fran9ais standard, 

■ I'extension progressive du vocabulaire pris en compte, notamment ^ travers 
Tanalyse automatique de vastes corpus, 

■ la mise en relation des informations phonetiques et des informations 
grammaticales et morphologiques, y compris les ambiguites grammaticales. 

CONCLUSIONS 

La production de textes phonetiques nous semble confrontee k trois defis qui commencent 
^ HxQ explores mais qui impliquent des recherches descriptives, niethodologiques et theoriques: 

■ atteindre un objectif de fiabilite, qui passe notamment par la facilite de la 
maintenance, 

■ arriver a dea connaissances systematiques sur les variations phonetiques, et les 
fa?ons de les manipuler dans des systemes informatiques, 

■ et, a plus long terme, exploiter les relations entre les faits phonetiques et les 
faits grammaticaux et syntaxiques. 

Si Tampleur de ce travail ne doit pas etre sous-evaluee, les moyens ^ mettre en ocuvre sont 
clairs. La fiabilite des transcriptions et la facilite de la maintenance dependent de la construction 
et de I'exploitation de dictionnaires electroniques. La description des variations phonetiques ne 
peut se faire que dans le cadre d'un dictionnaire, :ar chaque variation est limitee ^ un ensemble 
de m.ns, qui peut etre considerable. Construire dos methodes pour representer et manipuler ces 
variations consiste en fait k ^laborer non plus des dictionnaires phonetiques, mais des dictionnaires 
phon^miques mums de logiciels qui permetten. de retrouver les transcriptions exactes ti partir des 
representations phonemiques. Quant t Texploitation des informations grammaticales, elle se 
congoit dans le cadre plus general de I'anaiyse syntaxique de textes, qui a devant elle un avenir 
fructueux. 



19i 



ERIC 



1?^ trie Laporte 



Bibltographie 

CamhHdll' "^^^^9^^ ^ KLATT, 1987, From iexi lo speech. The MITalk system, 

Cambridge; Cambridge University Press. 

Austr^^He^ ^ /'//C»Nr/?5. rr^mrrrT,^,. fr^vi./i r.x/, Monash University, 

M.R. CARAFIPERIS, 1988, /?appor/ de stage, IBM France, Paris. 

N. CATACH, 1984, La phonetisation automatique du fran^ais, Paris: CNRS. 

)!^o.X'T^^4'5'k°Bur^st. conversion Sy.e™ for Dutch". 

M. DIVAY, 1984, De Vecrit vers roral, ou contribution a I etude des iraitemems de textes ecrits 
en vue de leur prononcatwn sur synthetiseur de parole. These d'etat, Universite de Rennes. 

Iho^S^J/'lrt^.'n^^J'I^^^^^^ morpho-phonologie ^ la production automatique de textes 

Paul &baUe;, Toubm^^ '''''' automatique des langag.s", Universite 

doao'^rlullle!^^^^^^^ et iexicales de phonetisation de textes. These de 

i^f^coTm^uSons/^^^' £/ec/r^mr Dtrectory Service, Rapport de la Direction generale des 

^A^^.^^' ^' ^^^^^AZI, J. MARIAN!, 1986, "Module de traduction phonetique avec variante." 
Tou^Luse. Icxmes et traitement automatique des tangages\ Universite Paul-Sabauer; 

?ran?a!^^t!^He-^'/J^.y'*' CALMES 1986, "BDLEX: une base de donnees et de connaissances du 
Paul-Sabatier, Voubuse" -^'"^'^""^ traitement automatique des langages", Universite 

^LT'^u^iaToC^^^^^^^^^ '''''' '''''' ^" '''''' W^-Journees 

?urL^parLl!^b?eS' ^^^^^^^ phonetiques", Actes des Journees delude 

P. TRESCASES et M CROCKER, 1988, "Linguistic Contributions to lext^to-Speech Computer 
Programs for French", Proceedings of Coting 1988, Budapest. computer 

^orTp^Hon ^nf n^^H ^^K"^^ ^'^/P'^' 1988, ;Triphone Analysis: A Combined Method for the 
Conference ^'^''^^'^P^'^^' ^"^ Typographical Errors", Proceedings of the 2^ ACL Applied 



ERIC 



ASSIST6E PAR ORplNATEUR (SACAO) 

UQUAM : 



1. LE PROJET 

Le projet SACAO^ (Sy, leme d'Analyse de Contenu Assistee par Ordinateur) vise 
rintegration systematique de procedures existantes ou nouvelles de lecture assistee de donnees 
textuelfes. II s'agit d'offrir d des utilisateurs, dans un environnement logiciel relativement integre, 
divers modules de description, d'exploration et d'analyse de donnees textuelles, tout en leur laissant 
le soin de parametrer ces procedures en fonction de leurs propres hypotheses de lecture. Ces 
procedures ne comportent qu*un minimum de preconstruction theorique et facilitent un maximum 
d'iterativite entre leur application et Panalyse du texte. L'integration est assuree par 
Petablis^^ement de Hens informatiques entre fichiers comportant des structures de donnees 
communes, Cet environnement convivial repond ainsi a . \ besoins differents de diverses categories 
d'usagers confrontes aux problemes d*analyse de donnees textuell^s. 



\A. Le probl^me: 

devolution recente de Tinformatique et le developpemcnt d'un domaine aux contours 
encore imprecis, le Traitement Automatique des Langues (TAL), n'interpellent pas seulement la 
communaute des chercheurs de diverses discipliner, mais aussi celle, beaucoup plus large, des 
usagers de la langue ecrite (documentalistes, gestionnaires, decideurs, etc.). La micro-informatique 
a penetre aussi bien les lieux de savoirs que les organisations, favorisant Oc nouvelles habitudes 
de travail et generant de facto une quantite croissante dMnformation textuelie sur support 
magnetique. Celle-ci se retrouve dans des banques de donnees ou des repertoires de textes qui 
demeurent pour Tinstant sous-exploites. 

Cette situation a cree des attentes de la part des usagers quant i Tamelioration des diverses 
procedures d'aide ^ Tecriture ou a la lecture. Du cdte de la production de textes et de leur 
gestion, ces attentes vont bien au-dela des traitements de texte. DejS des systemes^ operationneh 
ou ik Tetat de prototypes, proposent une aide ^ la redaction (support lexical: dictionnaires, 
conjugueurs, terminolugie, synonymie,...), S la revision (correcteurs orthogrr phiques, stylistigues,...) 
ou encore ^ Tannotation (resumes automatiques, indexation, construction e thesaurus, ...). D'un 
autre c6te, les problemes d'acces et de valorisation des banques de dor nees textuelles suscitent 
egalement des espoirs envers les systemes d'aide a la lecture. En gros, ces systemes s'interessent 
aux descriptions morphologique, syntaxique, semantique, logique ou pragmatiqu^ des texies, a leur 
exploration pour en extraire Tinformation pertinente ou pour y faire surgir un sens quelconque 
et, enfin, i Panalyse des donnees ainsi extraites, 

D'un c6te, on trouve des uiages n traitement informatique de la langue et une quantite 
croissante de donnees textuelles de ji disponibles, de Pautre, des proceduies diversif iees d'ecriture 



^La conception du projet remonte ik 1986 Sa mise en operation effective dMf de janvier 1988 

^Voir Pierre Plante, Jules Duchastel, Lorne H Rou * ard, Potentie! d'applications de D^redec dans le context© de la 
bureautique, Miniature des Conimunkations du Quebec, avril, 1986 
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^\^V^T'^ assistees. Par centre, il existe peu de m^thodologie pour I'usage integre de ces 

mn-^fii^' ,-r access.bles. Leur utilisation, qyand rile a lieu, est peu strategique faute de 

modeles d utilisation susceptibles de guider les usagers. ^ s i<«"ie ae 



1.2. L'itat de la quesSEon 

nitnr.ii^^c." n 'fM recherches^ reliees 4 la modelisation informatique ..s langues 

nature lies se profilent suivani deux axes: Tadaptation des mo<leles linguistiques et logiques /des 
K W nir^^ ^''^ ''^•"^ techniques d-ingenie?ie du langage" Co .Ion e 

dont le dt lT^JT ?P^•^"e^P«s^•bles correspondant ^ ces axes: le modfle%hilosophique 
dont le but est d accro tre la connaissance de la langue et le module ergonomique qui est oriente 
vers la production et Putilisation d'outils. Dans un cas, i' s'agit du p?ojet de programmer une 
machine pour la comprehension automatique des phenomenes langagiers, dans I'au^e Ts'ag"t 
plutdt de proposer des out.ls pour faciliter, par 6tape, cette comprehension. ^ 

" '^omaine de recherche est traversee, de part en part, par ces deux opti- 
nnf dnTnf ^'J ^galement caract6ris6e par une succession d^approches theor ques difftente^ qii 

prevalence de 1 une ou I'autre de ces approches. bien que chacune d^entre elles se soit superposee 
n^A T,,^' aujourd'hui, de se d^velopper simultanement. Une premiere'^eHcSe 

f .r.nlljp H^.IfJ H^^^ ^^r^ ^' ^ caractdrisee par Tapproche statisticomorphologique. Elle 
^VZLmm^tfnn r"''^'^^ 1^55 a 1970. Mais d^s 1963, la recherche s'affairait 

a I programmation de modeles logico-semantiques. Enfin, depuis 1974, le souci majeur est la 
etan^fr'lnSn!^ Torganisation de la connaissance en faisant appel a des modeles cognitifs. Ces 
etapes renvoient. comme on peut le constater, aux divers niveaux ciassiques de la comprehension 
.fonn*^^"° r ^-^ '^"^i^^- ^" ^'e" c^t^ philosophique que du cCte 

lxf^n^X%^\ '"' '"'"'Pf' ^^"^ le premie? cas, on donnera en 

annZli ^^^I^ppement important des approches lexicologiques, des tecb:iiques de parsage 
des"^ syntaxes t'JuT^'' (gmmmaires LL(n) et LR(n)) auxquelles s'ajoutent 

^ . formelles comme les grammaires en chaines, transformationnelles ou encore 
semantiques (grammaires de cas et grammaires lexicales-fonctionnelles, etc.). Dans le second cas 
I mgeniene logicielle a, entre autres, contribue au ddveloppement de tiiitements morphologiques 
de la gestion des lexiques, des analyseurs syntaxico-semantiques (ATN), des analyseurs 
deterministes, des grammaires de metamorphoses et des Definite Clause Grammars (DCG) et 
enfm, des modules d'.nference. II ne s'agit pas la d'un inventaire, mais d'une indication de 
I abonda ce des recherches fondamentales ou appliquees 4 tous ces niveaux. 

Ces recherches ont perrais des avancees notables, mais elles ont mis en evidence un tres 
grand nombre de problemes. La prevalence episodique de Pune ou I'autre approche souligne k 
loisir, les espoirs mamtes fois de^us d'avoir trouve Tangle d'attaque privilegie pour atteindre la 
5r«v?nr^r c?on-r Les developpements disciplinaires ou d'ecoles ont favorise 

rfn^f ? ^'Sf'.^'^^^'^"' mais les contradictions entre diverses approches theoriques ainsi que 
I opacite de certains modeles ont peu favorise I'integration des connaissances ainsi produites La 
relative courte duree des projets indique I'existence frequente d'impasces theoriques. La projec- 
tion tres prcblematique des avances theoriques dans les applications pratiques a mis en evidence 
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Zi^Z J% I ?^'!. "Informatique et langage natun.1. presentation g*n6rale des 

n j ?L n»fPr^tat,on dea textes icrUB". Technique science informatique. vol, 6, no 2. 1M6. ainei que ^ 
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^Op.cit. 
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rincompletude des systemes. A travers ce cheminement complexe, pouriant, les Hmites de 
couverture linguistique, conceptuelle ou inter-disciplinaire qui se sont revelees au grand jour, ont 
permis de r6evaluer les difficultes Uees A la comprehension des phenomenes de langue et de 
discours et certains problemes sont unsi apparus comme prioritaires. On pense a 'a contextuali- 
sation n6cessaire des phenomenes de discours, 4 la representation des connaissances, a la necesr^ite 
d'incorporer une quantite cunsidera^ de donnees extra-linguistiques dans les modeles de TAL, 
d la prise en compte de la logique dne naturelle. 



2. L^APPROCHE PRIVILEGIEE 

Pr6cisons d*abord que nous avons reduit le domaine de notre recherche, en choisissani la 
langue ecrite (y cunmris les retranscriptions de Poral) par opposition 4 la langue parlee et ies aides 
^ la lecture par opposition aux aides ^ Tecriture. Cel^ dit, Papproche privilegiee par SaCAO se 
d6finit selon deux axes: premierement, plut6t qu'une approche de comprehensson en profondeur 
des ph^nom^nes langagiers, elle propose une orientation pragmatique de valorisation des donnees 
textuelles; deuxifemement, face i unc approche trop stictement syntaxique ou semantiqne, elic 
favorise une analyse des morphologies du discours. 

En ce qui concerne le premier axe, SACAO vise, avani tout, rappHcatlon de modules 
fonctionnels ^ de grands ensembles textuels. En sonime, nous choisissons une approche 
pragmatique plutOt que fondamentale ou, dans les ternies de Coulon et Kayser, une optique 
ergonomique plutdt qu'une optique philosophic.ue. La logique de la demarche fondamentale 
favorise d^abord Papprofondissement des conna^ssances et ne recherche que secondairement des 
applications robustes et gtneralisables aux donnees du **monde reel". Une demarche pragmatique 
s*int6resse, au contraire, au developpement d^outils ou d^applications qui nous permettent d'ores 
et deja d*accroltre notre capacite de lecture de plusieurs manieres: acces rapide et systematique au 
contenu de grands ensembles textuels, rigueur c; regularite de la lecture, production d'informations 
nouvelles par rapport aux formes traditionnelles de la lecture, introduction de la mesure et de 
procedures de validation, etc. lis ont done valeur pratique pour qui s*interesse ^ la connaissance 
des textes. 

Bien que les recherches fondamentale ou appliquee nous semblent indissociables, il est 
certain que notre objectif d'accro'itre le potentiel d'analyse du contenu des textes plaide inevitable- 
ment en faveur d*une approche pragmatique, Cela dit, il ne peut y avoir d'application qui ne soit 
fondee sur certains choix theoriques, mettnnt en jeu non seulenient la langue, mais aussi le 
discours et la connaissance. Inevitablement, les choix pratiques qui sont effectues dans SACAO 
ne peuvent obvier ^ cette realite, II nous faut done nous questionner minimalement sur les 
consequences cpist^mologiques de notre option avant d*en revenir aux orientations theoriques qui 
guident notre entreprise. 

II serait a uisif aujourd'hui d'associer trop strictement, d'un C(>tc, demarche fondamentale 
et "systemes aulumatiques" appliques a des micro- mondes et, d'un autre c6te, demarche 
pragmatique et "systemes assistes" appliques a des macro-mondes. Certaines recherches en intel- 
ligence artificielle ont pourtant privilegie le caractere automatique des procedures et v\st la 
completude des systemes, du fait mdme qu'elles recherchaient la simulation plus ou molns 
isomorphique de phenomenes reels. SACAO a renonce, methodologtquement, aux premisses 
epistemologiques propres ^ cette orientation. L'automatisation n'est recherchee que sur une base 
pragmatique et ne constitue pas une condition premiere. Nous mettons de Tavant une approche 
hybride, alliant procedures automatique*^ et assistees, et une substitution de Tidee d'integration 
maximale des outils k Pobjectif de completude des systemes. Ce point de vue n'est pas unique- 
ment pratique, en ce qu*il serait motive uniquement par Timperauf d*une couverture large du 
monde reel, II repond t une conception extensive du probleme de la comprehension des 
phenomenes de langue et de discours. 11 est fonde egalement sur la conviction du caractere 
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Iu^LTL!^^}^"!! * processus d'analyse. Les syst^mes automatiques, aussi 

m^th^H^ ? proposent avant tout une boite noire aux utilisateurs. SACAO propose une 

rt4iSf d^^^^^^^^^^ "^"^'^ '^^^^^^^^^ --^-'^ Prog.ssiven,ent'son^ana»yse 

■ P^^J^^. s'est done d^fini une posture epistdmologique de nature 

nu!^ZVr.TL''^^^^^^^ De man.ere succinate, cette approche confoit la connaissance des 
phenomenes Jangag.ers comme le produ.t d'un processus non-univoque de construction des obiets 
himn!^^ ^^"tt r I coexistence de plusieurs proces de construction compl6mentaires (par 
; multiplication des n.veaux d'analyse) et potentiellement contradictoires^ (par exemple 
rifr^^ approches non exclusivemement compatibles), ensuite la n^cessitc d'une demarche 
r.l -:lV JuV des modeles et leur validation empirique. Cette demarche 

nrnwJn f^hode inductive et le caract^re interactif du systdme. Par exemple, nous aviTons la 
projection du module aux donnees, et de maniere plus ou moins deterministe, de modeles 
heoriques preconstruits sur le reel. Nous favorisons, au contraire, Tajout de descHptions 
successives du texte en aaernance avec Pexploration de resultats provisoires. 

.,ni;.-,fr^''^"''"'l^" ^""^ o^entations theoriques de SACAO. Deux arguments nous incitent S 
exphciter nos premisses th6oriques. D'une part, la production on la selection d'outils doivent 
necessairement trouver leur coherence dans des cadres theoriques d r6f6rence DW par du 
point de vue des mtdrets imm^diats des chercheurs impliqu6s Jans !e projet SACAO une 
orientation plus thdorique doit guider et faire converger les developpements qui seronf favorSs 
* fnf Jl't?'^"*:. deuxi6me axe de notre approche r'-nvoie & un presuppose theorique favorable 
a une analyse des morphologies du discours. 

n^r .nri^?»^'^"V®? '^^f''' theoriq-jc place done SACAO rdsolument du c6te de I'analyse de contenu 
f ^ description Imguistique. Biep. que ces deux options ne soient nullement 

antagonistes cette pnonsation donnde d la saisie du sens delimite Tespace de travail qui sera le 
notre, en fonction dobjectifs de connaissance des textes. L'etagement des niveaux 
^r.'!^?^; ^'l'^ syntaxiqu^ s^mantique, logique et pragmatique) caracterisant les phenomenes 
socio-linguistiques ne fait pas seulement ^numdrer les diverses dimensions de la langue et du 
discours. mais semble proposer un ordre souhaitable dans les Stapes de la recherche Par choix 
de methode, la Imguistique generale et la linguistique informatique ont souvent mis de I'avant le 
H-I^f ""f c'^^^'a^"^ du fonctionnement proprement linguistique des phenomene- de langage et de 
discours. SACAO considdre les divers niveaujw de description comme la resultante d'un decoupage 
et d une construction differentielles de cet objet, et non comme les etapes ordonn6es d'un parcours 
natlfrelfe"' ""^"^"^'^ ^ description lexico-syntaxique ^ la comprehension globale de la langue 

Aussi, lorsque nous preconisons une analyse des morphologies du discours,® nous nous 
deplacons dun mterdt pour la langue vers un interfit pour le discours. Les descriptions 
linguistiques du texte serv.ront de support k i'analyse d'un systeme semiotique, par ailleurs 
beaucoup plus compiexe. Nous faisons I'hypothese que le texte est un espace diversemenJ 
structurd, qui se ddploie selon un processus de sdquentialisations multiples (par ex., le point de vue 
TJrrT^TT P^'"^^^ ^"^ de I'argumentation,...) et dans lequel des objets se schematisem 
pour former des noyaux de sens. II nous interesse done de reperer les modes de segmentation qui 
caractensent I organisation d'un texte et les condensations de sens qui se produisent en certains 



On trouve dar)8 les reflexions 4p«t^molog.que« ,ur la phys.que dc» quanta rid6e de I'tfclectisme et du compWmentariame 
Science, eoci6U, nouvelle culture. 6d. du Rocher, 1983; Heinis Page!, L'Univew quartique, Paris inter-6d-tion8. ims. 

Nous |?|">iKn«f la contribution importante de r loaieurB AJain Lecomte (GRAD, Grenoble) at Jean-Marie Mara-.din 

dieLtiM' danTc^ H^'w " domame de I'analys, du discours et spAcialement au d^veloppement des hypotheses 
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Iteux privil6gi6s. Nous nous appuyons, pour ce faire, sur la connaissance lexicale du texte. (Margie 
aux exprfssions terminologiques. et sur une description morpho-syntaxique non-exhai:stive de ses 
unites. Nous privil6gions deux axes principaax: Paxe nominal et Paxe verbal. Le premier rtnvoie 
i Torgmisation s6mantique du texte. L'analyse des proximites ou des relations de dependance 
contextuelles (determination, thdme-propos,...) permettent de reconstruire des reseaux de 
signification. L*axe verbal renvoie davantage i la structure d*action du texte. L'analyse des 
caract^ristiques et de Tenvironnement des verbes permet de reconstruire Particulation des textcs 
ainsi que le fil de Pargurnent. 



3. LA METHODOLOGIE 



Les quelques remarques qui precedent auront plutdt indique une direction de recherche ou 
un espace de travail que defini un cadre conceptuel precis. SACAO vise le minimum de precons- 
truction thdorique justement parce qu'il propose, non pas un module d'analyse, mais un 
en^tronnement offrant une pancplie de moyens de lecture diversifies et minimalement contraints, 
Ce$;t en ce sens que Ton parle d'une methodologie pour Tusage integre et strategique d'outlls 
d'analyse de donnees textuelles. Le caractere integre de Tusage est autorise par Tarchitecture du 
syfiteme qui off re la possibilite de retenir une ou plusieurs procedures dc description, d'exploration 
ou d*analyse des donnees textuelles et de les faire interagir dans un plan d'ensemble. Son aspect 
strategique consiste precis^ment d, laisser le choix des modules, ^ offrir la possibilite de les 
modifier en fonction d'hypotheses particulieres et i favoriser la structuration globale de la 
demarche de recherche. 



Le systeme, adoptant une approche utilitaire, ne vise pas une comprehension ^trictemeni 
automatique du texte, mais propose des aides & la lecture et a Tanalyse de textes, !1 met a la 
disposition de Tutilisateur des outils 6prouv6s dans T^tat actuel de leur developpement. II ne s'agif 
done pas de proposer une m^thode independante du contexte de recherche de Putilisateur et qui 
garantirait des resultats generes par Tapplication aveugle i^rocedures. SACAO offre plutot des 
outils de manipulation des donnees dont les a priori theoriqr*»$ sont identifies. Ces outils seront 
sciemment employes dans des strategies de recherche definies. 



Le systeme favorise, en effet, le maximum d'interactivite entre les besoins de Tusager et 
les dispositifs de lecture et d'analyse qui lui sont fournis. L'utilisateur doit pouvoir tester la valeur 
des resultats gdneres par toute procedure afin de decider de la retenir ou pas. 11 doit pouvoir 
egalement ordonner, dans sa proprr demarche, le recours aux divers moyens qui ..ont mis & sa 
disposition. Dans la mesure ou c*est possible, il doit egalernent choisir les parametres qui seront 
actives dans chaque procedure. Cela signifie que la conception des procedures laisse place a une 
redefinitio.i des parametres. 



Cest done en fonction des caracteristiques enoncees ci-haut que nous procedons a la mise 
en place du systeme. Nous presenterons niaintenant les principaux elements de cette mise en 
place, D^abord, la faisabilite du projet n'est possible que grace a la disponibilite de modules 
informatique^ specialises d^malyse de textes et de Texpertise que nous reunissons dans le domalne. 
Mentionnons les logiciels SATO (Systeme de base de donnees textuelles destine a Tanalyse de 
contenu), Deredec (Environnement general a base d^automates pour Tanalyse et la construction de 
systemes cognitifs), FX (progiciet de programmation de faisceaux), D_expert (Environnement pour 
la generation de systemes experts) et les progiciels de description linguistique (Categorisation de 
base syntaxiqte du fran^ais, Lemmatisation et caracterisation morphologique du frangais. 
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chercheurs du C^^^^^^ ^ ^" ^^"^''^ °" ^" collaboration avec des 

travaux ou bien s'appuient sur des applications deja ddvelopp6es ou en voie dp 
nf^mlr^.^^ (voir progiciels), ou bien donnent lieu ^ de nouveaux d^velSppements ^nsle 
HroTc . ' T"^""^'' '^"'"•^ ^ ""^ evaluation dans des situations de produc ionVur de 
ZTJ JT ^ roptimisation des procedures ou, encore, ^ HdentiSion de 

ra^Jorfsation T^esHr' T ^""^ '^"^'^^^ ^^^^^^ priori'taire, par exemple.la 

Ss d^vHn™^^^ thema .que ou argumentative. Dans le second cas, nous introduisons 

modules Son ' ' '"'''"^ necessaires dans Peconomie generate du systeme. Le 

modules locutions et foncteurs semantiques" sont des examples de ces developpements en 



.r^af.o H r ""-^^^^ ^^y^^^ ""^ philosophie d'integration des divers modules fondee sur la 
ZciTJ^ .nformatiques dans un meme environnement machine et sur la por"abilitrde? 
rvPtlnJ^rntcT'''"- ^ 'r^'^ adaptation des modules existants ainsi que le nou^ 

frUst'^'^'rr'.V/ '"!f^'" '''^P'^"^^"^" dans ces environnements Mais, de fa?o^ 

realiste, I objectif pr.onta.re est dc realiser Tintegration de I'ensemble des modules sur le VAX 
alors que plus.eurs modules particuliers seront disponibles sur micro-ordinaTeurs ' 

rnr«..c experinientons snr une base systematique les divers modules de SACAO sur de grands 
corpus. Nous Possedons une oanque de donn^es textuelles tres importante contituee des coTus 
provenant de d.ff6rents projets de recherche. Pour I'essentiel, Texp^rimentS se fait Voaftir 

fyper'^noncatinf rr^'-^V ^''''^^ P"'"^"^' -streindr'Ton ut^^^^^^^^^^ d'amr 

types d application, cela imphque que les utilitaires (par ex., dictionnaire de locutions 

dnnnrJ?'f"'''/j'''S""'''''' ^^"^^"^^^^^s de domaines,...) sont d'abord enHchis / mS Ses 

Sll f^"^'?""' " renvironnement semblera plus 

lamilier i I analyste du discours qu'au critique titteraire. 

c«ctA^JL^^"L '"^."^j^""^^, en terminant, que cette experimentation donne lieu ^ I'ecriture 
systematique de f.ches techniques qui permettent de documenter en profondeur les diverge! 
procedures et qu. serv.ront de base ^ la redaction d^un manuel d'utilisation de SACAO 



4. L'ARC HITECTURE DU SYSTEME 
4.!. Les objectifs 

Le projet SACAO poursuit, sur le plan informatique, les objectifs suivants : 

1) Favoriser Paccroissement de la robustesse du systeme, en assurant une plus grande 
integration des modules entre eux. Assurer la portability d'une machine ti I'autre (PC 
Macintosh et VAX), afin de permettre ^ I'usager d'accomplir ccrtaines taches dans des 
environnements familiers, tout en lui donnant acces a une capa^ite augmentee de 
traitement sur VAX. o viv 



^^'''''^l/AonLleCJsdrSATo'^^^^^^^^ ? point par Pierre PJante du Centre d'ATO 11 e,t A noter qu. 

actrduTo^et SAclo " ' '^^P'^"^''--^' ' Louie-Claude Paqu.n. .ont membre« 
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2) Evaluer systematiquement les modules existants afin, soit de les enrichir, soil d'en 
extraire des procedures particulieres comportant une utilite plus immediate, tnrichir 
egalement le systeme de procedures de description, d'extraciion et d'anafyse comportant 
une complexite et une couverture plus grande. 

3) Encourager I'accessibilite au systeme, en fournissant une documentation detaillee et 
exhaustive de toutes les procedures, appuyee sur leur experimentation systematique sut 
des corpus temoini:. 



Nous decrivons ci-apres la dimension fonctionnelle de I'architecture de SACaO. 11 faut 
preciser d'entree de jeu que le terme architecture suppose plusieurs dimensions. La dimension 
fotictionnelle, privilegiee iji, decrit les caracteristiques des differents modules regroupant des 
unites de traitement. Nous n'aborderons pas les dimensions organique et algorithmique. 



4.2. LMoterface personne-machine 

A I'heure actuelle, I'envlronnement informatique le mieux integre est cetui du VAX. On 
y retrouve les langages utilises pour developper I'ensemble des applications (Pascal, C et Le Lisp); 
on y trouve egalement les applications utilisees dans le contexte du projet, telles que menilonnces 
A la section methodologie: SATO (Systeme d*Analyse de Textes par Ordinatcur), Deredec et FX 
(langage de programmatton des faisceaux), D_expert (progiciel pour la generation de systemes 
experts) ainsi que divers utilitaires (programme de conversion des formats ASCII, courrier 
electronique, etc.). Du c6te de Tenvironnement IBM et compatibles nous r rouvons SATO, une 
version r^duite de Deredec et FX ainsi que djs utilitaires pour la conversion des forma's ASCII. 
Dans le cas de Penvironnement Macintosh, nous y retrouvons principalement les applications 
realisees en LISP soit Deredec, FX et le D expert. 

Une telle variete d'environnements de travail pourrait entrainer des ditficultes importantes 
du point de vue de rutilisation des ressources SACAO. Afin de prevenir les inconvenient'^, lies 
a cette situation nous avons choisi deux options ergonomiques qui pourront paHier ^ ces diffi- 
cultes; la transparence et la portabilite. 

La transparence doit etre assuree de maniere a offrir a Putilisateur une interface qui soit 
relatiyement independante de Tenviionnement materiel utilise. En general, I'ensenible des 
decisions s'effectue de maniere interactive ^ partir de choix offerts dans des menus hierarchises. 
Cette gestion "par menus" favorise le dialogue utilisateur-unite de traitement qui doit etre sensible 
au contexte. 

Au principe de transparence s'ajoute le principe de portabilite. Ce principe stipule que 
les options de developpement doivent facilitcr le tranrfert du savoir-faire contenu dans les modules 
de gestion et les unites de traitement. La portabilite d'unc implantation materielle a I'autre (PC 
vers VAX, VAX vers Macintosh, etc.) assure la possibilite du traitement cooperatif (par ex., 
developper une maquette d'analyse sur PC et poursuivre le traitement des donnees sur VAX), les 
trai.sferts des donnees entre les differentes unites de traitement, etc. 



4,3. La gestion des dor.n^cs tevtueltes 

Dans la perspective de rendre acccssiblcs, nu plus grand nombre d'utilisateurs, les out^ 
el les dunnees textuelles rassembles dans SACAO, nous nous sommes interesses des le depart au 
probleme de la gestion des donnees. Notre objectif etait de strurturer des programmatheques 
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f^willfT ^^ll^^-^' contiennent la panoplie des modules utilic^s dans le cadre du 

traaemenc des donnees textuelles et les procedures pour les traitements en lot (batch processing) 
I k?'h"' ^Sajement les corpus que differents chercheurs ont choisi de rendre public. 

derdonniL tVxt'^^^^^^^^^ " cumulatif de la production d'outils pour I'analyse 

Aux utilitaires d^archivage s'ajoute un utilitaire pour la conversion des formats ASC'II 
^ITI! '"^P'^^^^^'o^s materielles. Grace ^ cet utilitaire, les usagers francophones iont 

assures de pouvoir maintemr I'mtegrite des textes sources et de proceder d I'analvse et au 
traitement des donnees de la m^me maniere dans les difh rentes implantations materielles 



4.4. La description des donnees textuelles 

r„ fr J^f "^^"^ d'inyestigation suppose une intervention technique sur les donnees ^ analvser 
tn effet la notion de donnee" implique necessairement un processus de construction des unites 
d^inrrm^r!. ^i' J?'^^' ""^ intervention de re-structuration qui transforme les unites 

I s^ccTmnm H r ? d'analyse. Le module de description des donnees textuelles est le moment 
ou s accompht la structuration mitiale des donnees. Dans le cadre du projet SACAO. trois niveaux 

rltKoX?^ ^'^ 7 '• "'"'^"'^ morphologique et syntagmatique. Ces niveaux sont 

relativement autonomes les uns par rapport aux autres, mais ils peuvent etre conjugu^s de maniere 
ditterente eu egard aux besoms specifiques d'une problematique de recherche ou d'anaJyse. 

rtn vn .tnir-''^''n ^^.""'^^yj description des donnees vise ^ mettre en forme les differents aspects 
vn..h rv i i ( ex.que) d;un texte. On pense ici plus particulierement ^ la structuration du 
nTr^^J j V ''f d'ctionna.res de locutions ou encore de thesaurus specialises. Dans un cas 
Hrnn^L t?', n" ' a ' ^^'^ Proccdures pour dresser Pinventaire des elements d'un corpus de 
f.. r ? c M ^" de base du frangais, s'ajoutent des expressions qui marquent 

souienf .nr^r. J'^"^' communaute linguistique donnee. Les formes lexicales se realisent 

Af n l f V- "^""^^ fonctionnent de la mfime fa?on que les mots uniques. 

t l ' J?': T '""[^"^^'^^ ^« "s unites, le module de description des donnees textuelles offre 
a possibihte de proceder au regroupement des differentes formes synaptiques (locutions). II est 
a,ns. possible d'.ndexer, dans le lexique des textes d'un corpus, les locutions canoniques 
(prepositionnelles, adverbiales, etc.), les locutions usuelles propres a un locuteur ou une famill" 
de locuteurs, les locutions techniques, les termes institutionnels, les locutions onomastiques (noms 
propres), etc. 

Au niveau morphologique, il faut faire en sorte que les dimensions grammaticales 
(morphenies lexicaux et grammaticaux) puissent ^tre bie identifiees. Nous disposons a Pheure 
actuelle dune unite de traitement pour la caracterisanon morpho-syntaxique du francais 
contemporain. Cette unite permet d'eff ectuer t'indexation des elements d'un vocabulaire ou d'un 
lexique, en adjoignant aux formes lexicales des etiquettes syntaxiques (etiquettes pour la 
classification des noms, des verbes, des adjectifs, etc.). Une seconde unite de traitement rend 
possible le marquage de traits relatifs a la dimension lexicale des mots (morpheme lexical ou 
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CBSF (Categorisation de base eyntaxique du francais), prog.ciel concu par l ucie Dumas du Centre d'ATO. permet de 
nrr^lh"!! 1« "t^gor.e ^Vntaxique des formes lex.cales de la langue franfaise. Le caract^rc automatique de la 
proc6<lure se r*aii«e darjs 80% des oecurn-nces. dans le eaa du francais «crit contemporain 

LCMF (Ummatisatmn et caract^rifiation morphologique du francais), 6galement d«velopp4 par Lucie Dumae permet de 
regrouper automat.quement autour d'une unite minimale de reprdser^tation toutes les formes flexionneUep qui y 
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Finalement, nous disposons d'unites de traitement pour decrire !es dimenr>ions syntagma- 
tiques des donn^es textuelles. A un premier niveau, nous pouvons Taire appel ii deux analyseurs 
du fran^ais, aptes i produire. de maniere auiomatique ou semi-aulomatique, une description 
syntaxique des phrases C*expressions bien fornixes'*) du franjais 6crii conten[iporain. Le ^^remier 
(GDSF), de nature avant tout heuristique, parvient d d^pister pour toute proposition, le iheme 
et le propws^ des indications sur des complements verbaux et plusieurs types de rletermmation 
nominale. Le second (ALSF)/^ actuellement en developpement, a une portee linguistique plus 
grande. Con^u comme un environnement global de traitement des enonceii en fran^ais, il prevoit 
des modules d'infor nation syntaxique, ti'analyse syntaxique et d'interpretation des structures 
syntaxiques. Dans Tetat actuel, certaines unites sont deja accessibles (par exemple, la desc Imion 
du groupe nominal). 

A un second niveau, il existe quelques exemples d'analyseurs textuels qui prennent appui, 
soit sur une premidre description morpho-syniaxique des phrases da texte, soit sur Porganisation 
semantique des textes. Un exemple du premier cas se retrouve dans SAADl^^ qui, fonciionnant 
sur la base du groupe nominal et de la structure des propositions (conc^ssives, restrictives. 
conclusives,...) permet de decrire la structure argumentative du texte. V existe, par ailleurs, des 
grammaires de representation semantique de divers objets textuels, d6velopp6es par differents 
chercheurs. Done, dans le cas ou ce qui nous interesse releve des niveaux de strLCturation du 
texte autres que morpho-syntaxiques (par exemple, les analyses thematiques, la classification 
d'expressions ou d'enonces, etc.), nous disposons d*unites de traitement permettant de program- 
mer sur mesure des algorithmes de description. Deux langages (Deredec et FX) permettent ia 
programmation de grammaires (du genre des "Augmented Tra:isition Networks\i aulomaiiques ou 
assistees. 



4.5* L^exploratlon des donates fexiuelles 



Le module d'exploration permet un travail complem^ntaire a celui effectue par les uni es 
de traitement du module de description. Une fois les donnees constituees, il faut pouvoir disposer 
de mecanismes (regroupement d'operations specifiques) pour la selection, le regroupement ei la 
classification des donnees. Dans le module d^extraction, on retrouve des unites de traitement pour 
la constitution d*inventaires ou pour le regroupement categoriel des informations. 

Pour les unites qui sont structutees de maniere lineaire (sequences lexicales), it est possible 
d^obtenin des lexiques frequentiels: des concordances (ou KWIC : Key Word In Context) bises sur 
la recherche de mois-cles ou sur des etiquettes symboliques ou numeriques associees a ct s mots- 
-cles; des cc-ocourrences (mot-cle et lexique des mots etroitement associes au mot-cle); etc. Pour 
le depistage de ces expressions, nous disposons d'opcrations permettant de determiner la forme et 
le nombre des chaines de criracteres qui srront employees comme parametres des procedures 
d'exlraction. 



ODSF (Grammaire surface du frftn^uiM], ccfn^tie par Fierre Plante du Centre d'ATO, est un ensemble d^ ^roc<^<hirf6, 
progrnmm^B en P^r<»der, dont I'^-^bjectif est l^'. btention des structures dc surface du fran^ais ^crit. 

ALSF (Analyseur Icxico syntfw<ique du fran^i^jR), prcKiuH en collaboration et eoue U reRponoabilit^ de Jtan Mjine 
Marandin de TINaLF, conetrtut le? Ftructur<^e eyntagmatiques prujt t<^ee par les cat^gorteB majeur«B du fran^:>m 
lop noms, v<»rb«»s, les adjectifi^ et lew prep^^hitu nh 11 cun«tuiit ^g.klt rnent les relations qu'entretiennent etitte 
elles ccrH categories dan^ dee nnitea sequent i^ H^'B 

SAADJ (Sy»t^.me d 'analyse asKifitee des interviews), uns aw point par Aluln Lecftn)te et Catherine P^<iuegnat de fUniveiSit^ 
de Grenoble, corieid^re les enchainemefau qufstiont* r6pr)nH«-8 et d^piste leB r^^ponee^ ditecies dan^ ie proceejsfUl? 
d*entrevue. 
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/.««f T ^^'^ structurees ^ partir dc contraintes morphologiques bien definies 

1 syntaxiques, donn^es structurees dc mnniere arborescente) ou floue- (unites 

i nTrH^^'r^r^nf^r'^^'^^ \ "^^"'^ d'e .traction permet le depistage des connees 

a partir de patrons definis par le chen hcur ou Papalyste. 

et I9 cir!.nn^l"r-.^'l'";i"^'*'^'-^^ Classifications, le module d'exploration pc-rmet la definition 
« partitions du corpus analyse. Air .i, une personne analysant un corpus 

Queiconque pourra d volonte apptiquer a des sous-enscmbles arbitrairement definis. les operations 
Hn *f precedent. Autrement dii, il est possible de generer^ partir 

T r'"""' f ^^"s-textes. II faut preciser que la generation de ces t.xtes peut 
Hv/K,n»Mf r ^^P^"^'^^ ^^'^ exigences des traitements statistiqu.s (techniques 

d echantillonnage) ou de fayon & permettre la verification d'hvpotheses sur un sous-ensemble 
relativement restreint (prmcipe de la maquette) avant de poursuivre les operations sur Pensemble 



4.6. L'anafyse des donn^es textuefks 

Le module d'analyse de donnees textuelles offre actuellement les traitements suivants : 

A) Un module de statistiques lexicales qui permet d'obtenir pour un lexique donne les 
statistiques s.i;vantes: moyenne, ecart-type, variance, frequences minimum et maximum 
score z et dr.iribution procentuelle des classes de frequences et d'occurrences. 

Des n-.esuies de distance inter-textuelle. La distance permet de comparer deux a deux 
des textes ou des parties de textes de maniere ^ faire apparaitre quels Elements lexicaux 
son*, responsables" des hearts de surface entre deux textes ou parties de texte 
L analyse de la distance peut etre basee sur differentes distributions de frequences 
correspondant d diverses segmentations du k wque et dtre ponderee par un lexique de 
reference identifie par le cherchcur. 



B) 



C) Indices de lisibihte. Les indices de lisibilite*^ sont des nesures empiriques permcttant 
d apprecier la difficult^ ou la facilite de lecture, de comprehension et de memorisation 
d un texte ou des parties d'un texle. Ces mesures sont calculees a partir de parametres 
comme la longueur des mots, la longueur des phrases, etc. 



5. LE FONC iiONNEMENT DU PROJET S A C A O 

Revenons rapidement sur It s principales conclusions qui ressortent de I'expose precedent 
avant d en montrer les consequences sur la definition de Pequipe SACAO et sur Korganisation de 
ses activites Nous avons etabli. des le depart, le besoin avere d'une aide a la lecture de donnees 
textuelles. Ce besoin se manifeste aussi bien dans les nombreuses disciplines universitaires dont 
une des sources de connaissance est le materiau textucl. que dans les multiples usages du texte au 
sem des organisations. Nous avons opte pour une approche ergonomique :le la question 
preconisant lusage mtegre d'outils diversifies dans une perspective de support d Panalyse 
uonnant prionte d Panalyse d contenu par rapport d la connaissance purement formelle de la 
langue, nous avons privilegie une approche interdisciplinaire. Notre point de vue pragmatique 
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encourage done uno nttirudo hcuristiqtM' d.^ns le processus do la recherche et met de r:n:uit \\\ t^Ius 
grunde autunomie des chercheurs en regard des moyotis mis a leur disposition. I a philosophie 
hybride, faisant appel aiitant ^ des procedures automatiques qu'assi^-tees, favorise la participation 
active de Panalyste de texte. 

l es moyens cuk nous nous donnons sont done orientes en fonction de ces hesoins et de 
cette approche. La mise sur pied d*une rnethodo|oi>ic pour rusa^.e integrt- de procedures d'aide 
A la lecture se iraduit da.ts un environnement qui pcrniet la gestion strategique de ces inoyens 
l/usager doit pouvoir choisir libremtnt !es procedures qu'i! retiendra, chcisir egalement Ics 
parametrcs qu' seront actives dans ces dernicres. II doit pouvoir articuler diversenient, en fonction 
de ses propres besoins, les multiples procedures les ures par ^apport aux autres et, ainsi, structurei 
globalemem sa demarche de recherche, tes specifications du systeme, pour repondre a cela, 
favorisent Tinteractivite entre les chercheurs et les outils, demeurent ^uvcrtes a la pos<;ibiltte de 
varier les parametres et comprennent le plus grand support documentaire. 

L'architecture de SAC AO a ainsi ete con^ue pour favoriser cette orientation. File definit 
divffses strates qui cor'-cspondent, en queique sorte, a la demarche concrete de Putilisateur. 
Fournissant a Tutilisatejr des methodes standardisees de fonctionnement et des facilites de gestion, 
elle def nit Ics trois principaux champs d\ictivite autour de la description des donnees textuelles. 
de leur exploration et de leur analyse. 

Le projet SACAO a ete pense el developpe dans un contexts qui reflete bien les 
preoccupations resumees ici. D'abord Inscrit de maniere diffuse dans le cadre des activiies de 
recherche du Centre d*A lO. le projet ^•est progressivement sptcifie dans un processus de 
differenciation par rapport ;\ dVtutres domaines de recherche en conprehension des langues 
naturelles. A c^te du developpement necessaire de modules de descripttcn linguistiijues ou 
cognitives, le bes -in specifique d'outils pour Panalyse de texte s'est fait urgemment sentir. 
L'equipe SACAO rcgroupe ainsi des chercheurs dont Ir» formation disciplinaire et les domaines de 
specialisation sont differenis, mais qui ont pour objeciif ultime Tanaiyse de textes. Cette equipe 
comporte egalernent la caracleristique de correspondre i des demandes heterogenes en termes de 
developpement. Certaines de nos activites s'inscrivpn* dans la structure de la recherche 
unive'^sitaire, alors que crau^res >ont immediatement as^-.oci^es aux de^nandes de developpement de 
sx 'emes destines aux ^iganisatiuns. 

(Vtte cqnipe ciont chaque membre poursuit, par atlleurs, une activire relativement 
independante d:ins son irhamp de specialisation, a dO cons;evoir un projet commun qui reHete Las- 
pect poKmorphique des bt stuns, ic Papprochc v\ lies moyens preconises. Elle a done defini quatre 
domaines d'activiti^s et nns en place des mecar^ismes pour leur realisation. Ces activites sont: le 
developpement informatique. Tadaptation et le developpenent d^unites de traitement, 
rexperimeniation et la df k umentation et. enfin, les activites de reflexion c* de formation. Les 
mecanismes de re ilisati^ni ctai^lstent en un seminaire helKiomadaire d'cchanp.- o! ilt* ^^lunif ication 
e! en [vuiatu* dr*. wuWv-^ s.- oii If^ c{i\-iM-^ cnmpetoncvs' Nou' illii-t.or«nL', t;.'s rapideriient le 
type d*:ictr >iu ^ qa» !clc\eiH 'Jc ciKicnn cic ^ cs domaines. 

I I' cic\c!opj.KMnfnt informatiqt'e renvoic a Kaspect informatique he z ia mise au point et 
d la gestiiin des f}roC( .iures d\ude a r-ec.ure. II peut s^agir de Tentretien des environnements 
L)giciels dans les diverses implantation^ de ta mise au point d*interfaces et de la portabilitc. Ce 
sont egalernent les divers dcvr^^ppcmcnts informatjques lies aux developpements des procedures: 
nouvelles st^'uciuies de icp- cbc nla* ion, n )uveaux automatisrnes, ecc, . C'esi encore ie 
developpement des procedure*^ de gesiion des fichit r,. 

['adaptation d'unite* de tra mcnt peui s illustrer par Texemple d'un t^va^l f'exahiation 
que ruMis aN.nv. '-iVoc!.!'/. J. Mj>nons (>l)Sf de \\\ structure thenr.inque des textes d'un corpus 
de dlscour.^ tKjIitiqtkS- Sur \\ base de cette validation, certains sous-e"sein!)les de procedures, 
enrichis de fU)Uveaux de\ e!op(HMnenti:, sont utilises pour etablir une ui.cription arborescente des 



20.^ 



it 



208 



ERIC 



J. Duchastel. L. Dupuy. et F. Daoust 



corDu. ^u'^^rAt'^ZT""? '"^'L' sy"*'"»'iO"e de vr.lidation des procedures sur des 

rZ^iisi^ d::':s^.e.?acnt r=i^o^r;a'rL^"^:"^E„'"r 'di'f - 




orees 



parage etc Lffornartn .Wfif '^^^^^'^ ''^"^'^^^ thematique, la th.orie du 

parsage, etc.. La formation seffectue quant a elle d rravers la mise sur pied de cours specialises 

U correspoT^Tidem^ftc^trn^^^^^^ "^^'^ P^"^^' programme de travail ouvert. 

qurdontre inteLi^^D^^^^^^ et ouvre un espace ne travail interdisciplinaire 

fondnmltotl - r -^^ lui-meme. Mdme s'.l beneficie abondamment de la recherche 

vue que ce qui 1 jnteresse, c est 1 analyse de textes assistee par ordinateur. uic uc 
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W It^APPMCATICHyiS^ INFORMATIQUES 

q^Si^^ iin i^pli s wl^^ <le I^Elmifiistration pubf ique 



Le Secretariat du Conseil du trcsor a !a responsabilite de la mise i jour et de la diffusion 
de la politique administrative g^n^rale du gouvernement, laquelle trouve son point de chute dans 
le Repertoire des politiques administratives et dans le Recueil des politiques de gentian. On y 
retroive plusieurs centaines de pieces (lois, reglements, directives, decisions du Conseil du tresor, 
etc.) qui constituent Tencadrement normatif de la gestion gouverr lentale. Au gr6 des decisions 
du Conseil des ministres, du Conseil du tresor ou des divers ministeres responsables d'un volet de 
la gestion, ces pieces sont edict^es, modifiees ou mises it jour au fil des ans. II s'agit d'une somme 
imposante d^nformation textuelle qui a pour but dMnformer les employes sur les politiques de 
Torganisation, sur ses tignes de condutte, ses standards et les nombreuses procedures ^ suiv^e, qu'il 
s'agisse de biens et de services, de gestion de personnel ou d'administration financtere. 

Dans le cadre de sa participation au projet lexical et semantiques des domaines, l auteur 
a entrepris de realiser Tanalyse de cette masse documentaire ^ Taide du logiciel SATO. Nous 
presentons aux participants du colloque le recit de cette experience dont tee diverses applications 
sont susceptibles d'en interes:er plus d'un. 



LES DIVERSES ETAPFS DE L^ANALYSE DE TEXTES 
■ hn formation et T^quipement 

Le logiciel SATO a ete developpe par Franc is Daoust du Centre d*ATO de t UQAM, et 
peut fonctionner sur divers types d'ordinateurs (V , Mac et Pc). La version utiliste donne des 
resultats plus que satisfaisants sur un PC- AT (con^. jible). L'usager dej^ familier avec le micro- 
ordinateur peut realiser de fa?on a peu pres autonome, apres quelques heures de formation et 
quelques semaines d'experimentation, Tanalyse d*un premier corpus de textes de son domaine. 



m Les donn^es textiteiles 

La disponiblllte sur support informatique des donnees textuelles a analyser represente un 
atout important. Dans le cas qui nous occupe, les documents de la politique administrative sont 
deja sur traitement de textes dedie (Micom). II s'agit done, dans un premier temps, de les 
transferer en format PC- WordPerfect et de les deposer sur disque rigide pour le traitement 
ulterieur (il existe sur le marche des logiciels de transfert), L'operation est, en soi, assez 
fastidieuse mais il faut penser que ce changement de support donne en meme temps acces a tous 
les avantages du traitement de textes sur micro-ordinateur: la souplesse, la rapiditc d'acces, de 
mise ^ jour, de partage des informations et la securite des donnees. 



■ La codification des documents 

Par la suite, chacune des pieces est codifiee en vue de son traitement par SATO. Cette 
codification, r6duite ii sa plus simple expression, consiste ^ determiner un ordre alphabetique (qui 
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d^n^f^fn thr. .r.n des formes rencontrees dans le tcxte), et ^ 

ser^^r dr«u rf" "^^^ """""'^ de document au texte. II s'agit lH de commandes pr^alables qu vont 
servir de guides de lecture pour le programme. On memorise enfin le document en format ASCII. 

fi^nere ulJ^^r^Sn nom^Sri^H*''^V''J • P'-'^Sramme SATOGEN qui "lif le document et 

d'i?,^errn?,t!nn • '^'^'"^ "^'"^^^ ^^"S le programme 

d mterrogation Ce premier tra.tement s'opere au rythme d'environ 50 mots H la seconde et 
PI >duit un le. ique de toutes les formes (mots) rencontrees avec la frequence d'apparitlon ainsi que 
a trace de ces mots dans le texte; certaines marques d'edition sont en mdme temps ajoutees tellcs 

oJ^^^ZT LT' '^r^'l '""^ ''^''^ majuscules de ponctuaS le en S^^^ 
paragraphes, la longueur de chaque mot, etc. 



■ Le programme ({'interrogation 

rom^o^n^^"^- ^"^"'^^ programme d'interrogation (SATOINT) lequel comprend un ensemble 
omTc ''"I ^ permettant d'interroger et d'annoter le texte. En combinant 

^fi f " ^-^^^'^ protocole d'analyse de textes memorise et reproductible, lequel peut 

etre appele automatiquemem par une commande d'execution. 



LE TRAITEMENT DE LA POLITiQUE ADMINISTRATIVE 

■ La production d*un index 

L'une des premieres retombees du projet a consiste k produire un index de la politique 
deT4'.'H;r p'"' ^^^-^^ ^"'"'^^^ ^identification des pieces traitant d'un sujet donne^ pS 
dL;; r.r til. H ' ^"'r'- °" ^ Ff°'^.^^- ^'■^^^^"^^nt par SATO de la table des matieres des 
H -1 "J^ politique. Une fois extrait le lexique de tous les mots contenus dans les 
drvaHdlr'le.''.^^^^ ^Hmmes les mots vides (le, la les. dans. etc.). on a demand^ aux special s e 
de va der les mots ou locutions qui leur semblaient caracteristiques du domaine ou utiles pour la 

mmJi^o''?* '"^'"'^^^ ^P^^ation est conserve dans un fichier "dictionnaire" et peut ^tre 

utilise par la su c pour automatiser Tindexation d'un nouveau texte. 

concnrZl'rTJLT\^ ^^^l"^^^ ^^^^^n^e au programme d'en rechercher toutes les 

l^nZ t !f i^^i^Jes matieres. Le programme g^nere alors un fichier imprimable dans 

!^twi ir - P^"" ""'^'^ alphabetique, chacun des 400 ou 450 mots retenus et, pour chacun 
r Jnl ^/^f 7 ^ '"^^ ^''^^ reference aux volumes. II suffit par la suite de 

llnhJul no f'-^ P^^8'"«"^'"e d'edition (tel WordPerfect) et de lui donner le format 

sounaite pour I impression. 

■ La constitution d'un corpus de la politique admlnlstratiye 

«^„i consiste ^ rassembler toutes les pieces de la politique administrative en un 

Taxi^^S!!!'^ 1^^"^ identifi6e par un nuniero de document, et a traitcr I'ensemble par .e 
Tla Lh-^rnhi, ^'"iRn'Jr d'interroger le contenu integral des textes 

de la poll ^ue (plus de 180 documents dans notre cas) sur un mot ou une expression pour en 

doma^nrvi" ^"^ P^'"'"^^ egalement de constituer un vocabulaire exhaustif du 

c'oii«„„^" S I'experience la liste des application:, concretes et des demandes ^'information 
s allonge. Cest amsi qu ayant remarque la presence, dans ce type de document? normes, de 
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nombreuses definitions ayant en commun une certaine regul?rite d'ecriture (alinea et gulllemets, 
par exemple), on peut demander au programme d*extraire ces definitions a partir d'un patron de 
recherche et d'en produire un fichier imprimable. 

Pour certaines fins, on peut limiter le domaine i certains documents (ceux, par exemple 
couvrant la gestion des blens et des services) et rechercher les passages ou Ton traite de seuils 
d*autorisation» etc. On comprendra toute Tutilite de disposer d*un tel instrument pour extraire, 
par exemple, la "connaissance" relative i un domaine de estion donne. 

Ces quelques exemples n*epui$ent pas les possibilites du logiciel; ils permettent seulement 
(Ten demontrer rintdr^t pour un "^travailleur du texte\ particulierement lorsque Pinformation 
textuelle est volumineuse et que le souci d*exhaustivite est imperieux. 



CONCLUSION 

« Le diveloppement de syst^mes h base de connaissance 

L*expdrimentation du logiciel SATO est une piste prometteuse pour qui sMnteresse au 
d6veloppement de systemes experts. Ce logiciel initie Pusager k la mise en forme et au traitement 
des donn6es textuelles de son organisation en vue de Textraction des connaissances. II est possible 
de generer, ^ partir de SATO» une information directement traitable par le systeme DEREDEC, 
d6veIopp6 par Pierre Plante de TUQAM. II s*agit d*un logiciel de traitement linguistique, d*analyse 
de contenu des textes; il trouve son prolongement dans un progjciel gen^rateur de systeme expert, 
le D-EXPERT (Louis-Claude Pajuin, de PUQAM). On peut utiliser Tinformation numerique 
gener6e par SATO comme entree pour la mise au point de systemes experts en langue naturelle, 
ou pour des logiciels d'analyse de donnees et de traitement statistique. 

L*auteur vient de completer sur D- EXPERT un prototype de systeme expert sur un volet 
de la politique administrative; il s*agit d*un systeme d*aide ^ Pattribution des contrats de services 
qui prend appui sur les travaux realises a Paide du logiciel SATO. 
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Cette contribution a pour effet de ^tin!L«lcr U cr^ativiti des sp^clalistes d'un 
domaine donn^^ par un#^ approche oii ce ne soni pas les automatismes ni la 
confiance a%^eugle dans Toutil qui priment, mais les manipulations r^p^t^es, 
libres et varices de Tusager* 
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LOaiCiEL D'AIDE A LA CONCEPTION DE BASES 
£ DE CONNAISSANCES DEONTIQUES 
A «ART1I? DE t^ANALYSE DE TEXTES DE REULEMENT 

Maii^^jMB^^ Jlmt^tt B^rmurd MottUti^ nmitl nti^ta^Uy Gtmd Siml&ii 



RtSVMt 

Dans !e cadre de cette recherche, nous explorons la possibilite de constituer des bases de 
connaissances ^ partir d'informations contenues dans des textes utilises dans des orgMnisations. 
Les documents que nous ^tudions correspondent ^ des "textes prescriptifs" que Ton peut trouver 
dans les entreprises: manuels de normes, reglements, manuals d*utilisation d'appareils ou de 
logiciels, etc. Notre etude actuelle se concentre plus particulierement sur les textes de reglement 
emis par le Gouvernement Ju Quebec, 

Dans ce projet, nous visons ^ developper un logiciel d^acquisition des connaissances qui 
permette aux experts de transformer un texte prescriptif sous la forme d'une base de connaissan- 
ces manipulable par un moteur d'inference. 

Nous enon^ons dans cet article les lignes directilces de notre recherche sur la mise au point 
d*un logiciel d'acquisition des connaissances i partir de textes prescriptifs. Nous presentons une 
approche de la structuration des textes qui nous fait distinguer la macrostructure de la 
microstructure et de la composante domaniale du texte. Nous livrors une premiere analyse de la 
microstructure d'un texte r^glementaire. Cela nous conduit h nous interroger sur la representation 
des connaissances d6ontiques dans une base de connaissances. Nous suggerons un premier noyau 
de specification d'un mdtalangage reglementaire ainsi que sa transformation en enonces logiques. 
Nous proposons aussi les schemas de principe d'un systeme d*acquisition et d'un systeme de 
manipulation de connaissances deontiques, Finalement, nous discutons brievement des divers 
elements d*une phrase a mettre en evidence lors du traitement de la microstructure d*un texte 
prescriptif. 



1. INTRODUCTION 



L'experience montre que les experts ont plus de facilite a e^pliciter les connaissances et le 
raisonnement quails mettent en oeuvre pour resoudre leurs problcmes si on ies libere de Putili- 
sation de formalismes compliques de representation et si on leur permei d'exprimer leurs 
connaissances sous une forme textuelle structuree et lisible (un sous-ensemble comprehensible du 
fran^ais). 

Nous appelons '*base d'acquisition de connaissances" f BAC) une forme textuelle structuree, 
elaboree et mise a jour par les experts au cours des sessions d'acquisition des connaissances. La 
BAC apparait comme une forme editable de base de connaissances en fran^ais, comprehensible et 
manipulable par les experts du domaine. 
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b^^^Te coLnaisstnc (ou fornfe' omp'n^e de la^BAcT 

?SiSa?r.r'<?L'Se^^ 

f des ^ext« nrJ rrit-t. San.safons, Les documents que nous etudics correspondent 

concentre plus part.culijrement sur les textes de rigleme'n, emis par ie G^uv" nemlm rQurbec^ 
Les objectifs poursuivis dans ce pro.jet sont les suivants: 

■ La mise au point d'un langage de specificaiion du contenu d'une base de connaissances 
pSiveTou Zl'IS"''' ^" -^'^^^ ^es Sn"n"^!= 

■ ^ZI^'aV -"l- ^ d'acquisition des connaissances implantant la notion de 

frJtLl H L ^^^^-^ connaissances sous forme de regies de production 

(systeme d acquisition des connaissances). uwu^nuu 

« La mise au point U^-n moteur d'inference et d'un environnement de conception de 
systemes k base de connaissances (systeme de consultation). conception ae 

■ commfde^rnlfKM V Conception de bases de connaissances, qui tienne 
compte de la possibilite de specifier les connaissances A partir d'un texte prescriptif 
et qui mettc en oeuvre le concept de BAC prcstripiu, 

■ L'application de ces methodes et outils i I'analys? de textes p escriotifs et nlus 
particulierement aux textes de reglement. escnptits, et plus 

la ma.r^^'!! ^"'^ "^^"^ distinguons diverses composantes dans un texte prescriptif- 

la macrostructure. la microsiructure et la composante domaniafe Puis, nous livrons une TreS 
Zfr."J:- '"•^'•l^^'"^:^"^^ d'"" ^e>^te r^glementaire en nous interrogean ur la repr^senta .on 
t\T.T'T''^l'^^'''''\'^T ^^^^ connaissances. Nous proposons un premierToyau 

de specification d'un mdtalangage r6glementaire ainsi que sa transformation en enonc^TloEiaues 
Nous sugg^rons les sch6mas de prinripe d'un systeme d'acquisition et d'un sy"teL drmaninu latb 
de connaissances deontiques. Finalement, nous discutons brievement Ses divers ei^me^^^^ 
cT^rnrr /u^Tx^e''^^^^^^^^^^ connaissancefa^nrd^^lareri^^ 

2. LES COvlPOSANTES D'UN TEXTE PRESCRIPTIF 

nour nn ^ reglement constituent de bons exemp;. de documents de synthese rassemblant 

Dreirinf.v. pf i^l""'' 1" ^^""^'^^^"^^5 formul6es en langue naturelle sous une forme 
prescriptive. Pour la formulation des articles de reglement, les auteurs emploient habituellement 
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un ''style jundique** qui repond & certaines regies generales de presentation et d'expression (voir 
par exemple [T-J-L 84]). L e texte d^crivant un reglement peut dtre considere comme un ensem- 
ble de connaissances decrivant en theorie d'une fa^on exhaustive les caracteristiques d*un domaine 
pratique d*application de la loi. Lorsqu*on 6tudie un texte r6glementaire, on peut distinguer des 
6I6ments qui peuvent correspondre d Tun des trois types de composantes: la macrostructure du 
texte, la microj^uucture, la composante domaniale [MOU 88].2.1 

2J La macrostructure d^un texte 

Nous definissons la macrostructure d'un texte comme Tensemble des informations qui 
servent k organiser le contenu du texte pai Tappoint d*une "superstructure- enrichissant ta 
presentation des enonces et facilitant la consultation: tit res, en-tetes, paragraphes, table des 
matidres, mdex, r6f6rences, notes, etc. 

La macrostructure du texte est en general etablie en fonction de quelques regies de 
presentation commun6ment adoptees (titres, paragraphes, tables des matieres, index). Par contre, 
le decoupage du texte et le contenu s6mantique de la macrostructure sont elabores par i'auteur, 
souvent de fa^on intuitive , en fonction de ce qu'il considere 6tre la meilleure fafon de presenter 
son texte au lecteur. 

Bien que cela soit rarement fait en pratique pour un mdme document, remarquons que la 
presentation d*un texte pourrait varier pour s'adapter ^ des types differents de lecteurs: novices, 
specialistes d*un domaine, decideurs, etc. Cette adaptation de la presentation et du contenu du 
texte demanderait que Ton s'interesse aux objectifs du lecteur et k un modele de ses connaissances 
pr^alables: -le texte intelligent" adapterait son contenu un peu comme le pedagogue s'adapte au 
niveau de connaissances de son eleve. 



2.2 La microstructure d^un texte 

Nous definissons la microstructure du texte comme Tensemble des "mots reserves", des 
locutions et des symboles qui servent ^ structurer le contenu du texte pour en faire ressortir la 
structure logique. Voici des eremples de mots ou de locutions utilises pour supporter la 
microstructure: ''si% ''alors% '^sinon'*, la virgule, ^lorsque**, ^il est interdit de", "il est possible de", 
etc. Ces Elements servent ^ structurer Texposition ou Targumentation du texte. L'auteur peut 
utiliser une formulation plus ou moins syst^matique de la microstructure suivant la nature du texte. 
Les textes de loi et les reglements obeissent ^ des regies assez systematiques d'exposition et 
presentent une microstructure apparente. II en est souvent de meme pour des textes de normes 
ou de procedures. 

L'etude de la microstructure d'un texte permet de mettre en evidence la coherence logique 
de Targumentation et d'y reperer eventuellement certaines inconsistances. On peut ainsi considerer 
les enonces supportant la microstructure du texte comme constituant un m^talangage utilise pour 
d6crire Tenchainement logique des propositions en fonction de certains objectifs d'argumentation 
que Tauteur veut atteindre- Ce m6talangage peut ttre etudie du point de vue de la logique 
modale, et plus particulierement de la logique deontique pour les textes de reglement (KAL 721. 

2.3 La composante domaniale d^un texte 

Nous definissons la composante domaniale du texte comme Tensemble des informations 
caracteristiques du sujet traite et n'appartenant ni d, la microstructure, ni ^ la macrostructure. 
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Notons que nous ne nous interessons pas ici aux composantes graphiaues et tabuhirP. n.m 
peuvent contenir certains textes: images, graphiques. tableaux de donntes etc 

c^it ^^'PPpsante domaniale du texte comporte un ensemble de propositions qui oeuvent ^tre 

fa e'S 'l'™ '''' ^"-lysees'de'fajon pluTdS^^^^ 

I aire ressortir les composantes s6mantiques du texte. La nature du traitement aoDlioue ^ h 

de I usager concernant les connaissances profondes du texte. <=punare aux questions 

2.4 La manipulation de formes textuelles structur^es 

Aroon-ci^-^"^ postulons que plusieurs categories de textes habituellement utilises dans Ie<! 
organisations constituent "des bases de connaissances textuelles" pour lesque les les auteur of 
daterrnine par ^p6rience et souvent par intuition des formes structures aHn d'en facihtl^ 
structL^finnn H?""' f'' '''''' ^uides de redaction ont et^ proposes pour uniform e a 

Ti-t slj) notan.mer..^ dans le secteur^gisla?if (volr^par 

directive 'S^d^'dvSf "^turellement structurees: textes prescriptifs (normes. 

oireotives, modes d emploi, etc.), textes deontiques (reglements, regies de jeu, lois; etc.). 

prescriJtifs"lfffd?rJH l^'^^f "^"'f" ^^''^"^ '"^'^ ""^^^'"^^ transformations a des textes 
V^^?'^ '^!^' ^o^*""'ation systematique (et 6ventuellement plus formelle) il est 
possible d ^laborer des bases de connaissances expioitables par des moteurs dMnferencr La forme 

pS ltirdu"cont;rd.1J^ transformation du texte^riginal ^ourra Isi^ervir pou T 
specitication du contenu de la base de connaii.sances, et la rendre naturellement comorehensihlP 

f«tn.n '"*''"'^f ^ ^^P^^"^^^ ^« ^^"Sages formels de p/c fi^Lt^n Cette 7^^^ 

textuelle structuree sera appelee "base d'acquisition des connaissances" (B. A. C.) 

3. CONNAISSANCES DfeONTIQUES DANS UN TEXTE DE REGLEMENT 
3.1 Introduction 

nprm*.tt!li." dans cette section quelques reflexions concernant un noyau de langage qui 

tnZulT formelle du contenu d'un texte deonfique.% parfir de 

laquelle on pourra.t gen6rer une base de connaissances exploitable par un moteur d'infrrence 

Un texte de reglement peut etre considere comme un ensemble de prescriptions qui doivent 
pa7ie~en7 ^"'""'^ ^''^''^"^ ^^"^ d^application" rSes 

Ainsi le reglement sur le traitement des dechets solides ( voir Pannexe 1) fixe des reeles 
3. .1uT' ^"'vies par les promoteurs qui desirent mettre en operation certain type 
1 pTrX^e? et^'c'"'"'"'"' "'^'^^^ ^^"^^^^ incinTrateur, "sine 
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Une premiere analyse de !a mic restructure du texte (voir section 4.2) permet de relever des 
r^gularites de formulation qui soulignent la presence d'un metalangage qui supporte 
Pargumentation "r^glementaire". A notre connaissance ce metalangage n'a pas 6te formalise, mais 
il est utilise par lec juristes conform^ment a un usage accepte par consensus. 

Nous ne suggerons pas ici que les juristes utilisent un langage formel et rigide, mais que 
par la nature mfime des concepts qu'ils doivent exprimer dans leurs textes prescriptifs, ils ont mis 
au pomt par experience un "langage de style juridique" que nous aliens etudier comme s'il 
constituait un metalangage d'expression des prescriptions reglementaires. 

De nombreux auteurs se sont interesses au contenu des textes juridiques. En particulier 
au debut des ann^es 50 apparaissent les premiers systemes traitant formellement "d'une logique des 
normes" ou "logique deontique". 

En fait le premier systeme de Von Wright (1951) se base sur deux idees fondamentales- 
idee de I analogic entre Tobligation, la prohibition et la permission d'un c6t6, et respectivement 
la n6cessit6, rimpossibilite et la possibilite; I'idee de la transposition sur le terrain des enonces 
deontiques (normatifs) des termes de la logique des pr6dicats. De nombreux autres logtciens ont 
propose des modeles de logique deontique. Nous renvoyons Pauteur interesse H Pouvrage de 
Kahnowski [KAL 72], qui fait une excellente presentation des divers travaux qui ont 6te menes 
au sujet de la "logique des normes". 



3.2 Formes logiques d^riv^es des expressions du metalangage 

Dans cette analyse exploratoire du "metalangage reglementaire", nous avons choisi d'etudier 
le texte du reglement sur le traitement de<; dechets soHdes (voir un extrait en annexe 1), pour 
essayer d'en faire ressortir routes les expressions qui supportent les ^nonces prescritifs. L'annexe 
^ presente les principales categories d'expressions que nous avons relevees. 

Ce metalangage est base sur Putilisation d'un certain nombre d'expressions ou de tournures 
de phrases qui supportent la formulation logique des termes du reglement. Nous proposons une 
approche de re^cnture en termes formels des propositions du reglement sous une forme logique 
qui s inspire des travaux cites precedemment. 

Remarquons tout d'abord que la plupan des prescriptions du reglement correspondent k 
des ^nonces prescriptifs du type : 

"Tout X doit proposition P", 

ou 

"Pour tout X, il est interdit de proposition P". 



Ce type d'enonces correspond i la prescription d'une caractenstique ou d'une proprietc P 
(ou de Non (P) note yP) que doit verifier obligatoirement tout element x appartenant a la 
categoric X. 

Cela suppose qu'il existe diverses situations (ou cas) que Ton peut observer dans un "monde 
d observation", dans lequel on peut mesurer des caracteristiques P(x) d'occurrences x d'objets 
decrits par des categories X. On veut comparer ces caracteristiques observees aux caracteristiques 
prevues par le reglement pour juger de leur conformite. 
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■''>t^r<iimV''^,!ZT^^^^^^ carac,eris,i<iues ob.isa.oires (ou 

rapporte le riolement i V ilr™. .' opj*" , fa'sant part.e du "monde ttalon" auquel se 
S/ristiquet* du -™onde%X^ d'observa.ion- a«c 1« 

possibiliies non exploirtw P">nettent de di.ecter !es violations du riglement ou les 

Nou,eXrsT^ra:iot™;;-i*rn;i°'''rs'^a^^^ 

symboles X. Y. Z. W. Les proposidonl se™" SXs^paMef U We"s ""oTTri.lf, 
d'objets sur Suelles porte"r?ror^^ If/v^'^t ^"^'^ mdiquant en arguments les categories 
pou/exprimer Tob igatlT^ 1 est^ ^""^ emploieroas fe symbole ! 

ril est DermU dt^ »7 ODiigatoire de ... ) et le symbole £ pour exprimer la permission 

UmL' ^:rii',TVex'priS?;-?":7^„%rdifrT."" """""'""^ ^- 

catigorie'd-obieis^rmirxV^ '•"PP^'^'noe d'un element , „ne 

£rnSH==^^ Z 

...aCrr"^,Vn.LSetrr^ 

.•obligat°"'«1es''qre""riS."rpos^^^^^ les prescriptions expri.an, 

«sertives. les regle^e deSo'n de'cXrleJ, fes'LTa^X'" " '"'"<'-'-"^. '« '*ales 

- prescriptions exprlma^it I'obllgatlon 

. corres'p?nr;i°i;::pi;.iHL^i4pUl:.'s'dV.Tr"' ----'^ 



ou 



{ X ne peut que P, a Texception de Q }. 

formule!'""' '"^'^"^ semantique de ces expressions pa. la 

(Pour tout X) elem(x,X) [ &rO(x) J > P(x) I 

exnHm'^^r.hl !?""'! J'appartenance d'une occurrence observoe x ^ la catcgorie X et ou P(x) ' 
expnme I obligation de verifier la proposition P(x) sur le cas observe. ' 
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. les prescriptions expiimsnt la possibility 

Les categories 2\ 9\ II, IP ,1 et 12' cxprim-nt la possibilite. Par exemple, la categoric 
correspond d Tinterpr^tation d'express.ons du type 

{ Les X peuvent P ) 

exprimfees par 

(pour tout x) elem(x,X) -> P(x) £; 

La categoric IT* correspond 4 rinierpretation d'expressions du type 
{ Dans le cas ou P, Q condition que R] ) 
exprim^es par 

P ( R] -> Q £. 



les prescriptions exprimant les liBterdictions 

La categoric 6 exprime Pinterdiction: 

{ [Toutefois] {il est interdit de, il n'est pas permis d(% nul ne peut} P, 
{en vue de, dans le but de, uniquement pour) Q, [si R] } 



Nous exprimons sous une forme logioue le contenu semantique de ces ex-^^ressions 
par la formule: 

P & Q [& Rl violation du reglemevit (VIR) 



oil nous avons choisi d'enoncer la forme positive des propositions P, Q et R, et d'indiquer en 
conclusion de la regie qu'il y a violation du reglement (VIR). 



les regies assertives 
La categoric 7 decrit des expressions du type 
{ {si, lorsque, alors que, pendant) P 

{et {si, que), ainsi que, de m^me que) Q {alors, il faut que, \*) R ), 



Ccllcs-ci expriment des regies qui permettent de deduire nouvelles assertions; nous les 
exprimons sous la forme logique suivante: 

? & Q R. 
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. les regies de definition de categories 

ca*6gorie 8 donne un exemple de type de rc^es qui permettent de dcf inir dP. 
categories par rappor. ^ d'autres. Les expressions du type P^-^f^euent de dcUn.r des 

{ Tout X qui P, {est, est repute} V ) 

permettent de d^crire les objets de la cat^gorie Y comme des specialisations .e la c-^tesorie X 'on 
def.nit une 5ous-classe au sens de la theorie des ensembles). c?(egone X ,on 

Nous exprimons ces regies sous la forme logique suivante : 
(pour tout X) elem(x,X) & P(x) -> eIem(x,Y) 

les metaregles 

ah\^u rf*:fmnnirK" J 4. 15, 16 et 17 correspondent ^ des regies qui portent non pas sur les 
objets du monde observ.^ mais sur les clauses memes (articles, sections ou alin/as) du r/alement 

n,od,r,cat,ons de regie., duplication e. .ijustement de certaines regies precedemmenr^Snc'ere": 
3.3 Gen^rer des bases d«? connaissances d^ontlques 

d-expres^L7To™,t;"dut;e''™'"' '""^ """^ "'"P"^"- * P"'- 

"conjonction de premisses -> conclusions" 

des regies d'inf^rnce sous la forme classique (regies de production) 
"SI conjonction .le premis.ses A LORS conclusions". 

r.-.. A. r« ^- ""^^'^^ Obtenues enoncent c-s prescriptions ne nous oermet 

pas de les ut.liser directement par un mjteur d'inference {k base de regies de oroduc^ion mr 
exemple), pour fa.re verifier si les cas presentes par les promoteurs sont co'nform.^'^Iu r^^^^^^^^^ 

X doit r7ure7reformSi?e' en'"' '"^^ connalssance contienne une seule regie: "Tout 

"(pour tout X) elem(x,X) -> P(x) f". 

Supposons que le promoteur presente un cas caracterise par le fait (xl). 

Un moteur d inference classique lance en chainage av^nt conclurait P(xl ) et raiouter i.t 
fait comme element descriptif du cas du promoteur. onLiuraii mxj; et rajoutera.i ce 
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Or dans ta r^alitd, le cac peut presenter la propriety xP(x I) et IMnf^rence serait erronee. 
Cela tient simplement au fait que les enonc6s issus du reglement prescrivent des contraintes (du 
"•monde ^talon**) par rapport auxquelles on valider la conformity des cas presentes (issus du 
"monde d'observation**). 

Nous nous int^resserons done d un syst^me ^ base de connaissances qui interrogen 
Tuttltsateur afin de lui permettre de decrire le cas observe. Le moteur o^inf^rence titilisera les 
regies Jeriv6es du reglement pour verifier la validity des faits decrits par Tutilisateur par rappoit 
aux prescriptions du reglement. 

Pour pouvoir utiliser les moteurs d^inference traditionnels qui mettent en oeuvre 
essentiellement une strategic de raisonnement basde sur la regie du modus ponens de ia logique 
classique, nous proposons les transformations suivantes concernant Tobligation, Tinterdiction et la 
permission: 

■ Uohligation P(x) -> Q(x) ! transform^e en 

SI P(x) tQ<^) ALORS VIR(art i) CAU(Q) interpreter pav 

"Si P(x) et non Q(x) alors on a violation de Particle i du reglement, 
la cause etar le fait non Qixf. 



m La permission P(x) -> ^^v^ £ transformee en 

SI P(x) rOi^) ALORS POS<art i) CAUrO> interpretee par 

"Si P{x) et non Q<x) alors on a la possibwtu- de la clause Q, d'apres 
Particle i du reglement". 



a U interdiction a d6j^ et6 formulee dans ces termes: 

SI P & Q [& R] ALORS INT(art i) & CAU(P) interpretee par 

! est interdit de P, en vue de Q [a condition que Rf ou '^Si P et Q (et 
eventuellement R], alors on a violation de Particle i du reglement, la cause 
etant Pinterdictior. p-. 



Ces transformations sont basees sur certaines <"ufacteri5;tiques que nous avons retenues pour 
le type bases de connaissances deontiques que nous voulons generer et du mode de consultation 
que nous envtsageons. Ce sont sur ces bases de la logique deontique que le systeme de 
manipulation de BAC s*appuiera pour transformer une BAC obienue ^ partir d*un texte prescriptif 
en base de connaissances compatible avec Putilisation de moteurs dMnference com iierciaux. 



4. CARACTERISTIQUES DU SYSTEME DE MANIPULATION DE BAC 



Le systeme de manipulation de BAC que nous jommes en train de developper comporte 
deux composantes principales: un systeme d^acquisition des connaissances 1 1 un systeme de 
consultation. 
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4.1 Le sysUme de consultation de bases de connaissances d^ontiques 

AA ^^iT^. ' P''fsente le plan du sous-systfeme de consultation de bases dt connaissances 

d^ontiques, ddcnvant les principaux modes d'interaction qui seront offerts k I'utilisateur (Les 
rectangles repr6sentent es processus du systfeme; les rectangles ^ coins arrondis les i>ccumulations 
a information; les doubles carres I'environnenient). 

La fonction PI permet au systdme d'interroger Tutilisateur (El) sur les caract^ristiques du 
cas observe. Les r6ponses de Tutilisateur sont m6morisees dans le cas traits (A3). La conduite 
du Jialogue avec I utihsateur est faite en fonction du contenu de la base d'acquisition des 
connaissances relative au r^glement concern^: BAC V^glement' (A2). 

La fonction P2 permet de valider la conformite du cas traitd (A3) par rapport aux 
prescnptions r|glementaires" contenues dans la BAC (A2). Des recommandations sont alors faites 
a I utihsateur (El). 

La fonction P3 permet 4 Putilisateur (EI) de consulter le r^glement original (Al). 

Ces diff6rentes fonctions sont mises en oeuvre par le moteur d'inf^rence du syst^me i base 
de connaissances en fonction des besoins de la consultation. Nous discutons dans le rapport d'6tat 
d avancement des travaux (octobre 1988) des caract^ristiques du moteur d'inference et du module 
d acquisition des connaissances. 

.•^ jype consultation permis par nos bases de connaissances d^ontiques correspond k la 
rlo/ri^ caract^ristiques des cas trait6s par rapport aux prescriptions formul6es sous la forme 
ftl- r i ^ , »nf6rences qu'elles permettent de faire conduisent t des conclusions 

relatives ^ des violations du r^sglement par obligat-on non respectee, ou par interdiction 
transgress6e, ou k des permissions non exploitees 



flQure 1 : Systdme de consultation d'une base de 
connaissances dtontiques 



El 
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4.2 Le syst^me d^acqufsition des connaissances d^ontiques 

Dans cette section nous exposons les principates caracteristiques d'un logiciel d'acquisition 
des connaissances a partir de Tanalyse de textes de rdglement. L^approche d*acquisition des 
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connaissances que nous proposons consiste en un pr^traitement du texte du r^glement, une 
compilation de la forme pr6trait6e, et r integration de la f-rme compilee au contenu de la BAC 
(figure 2). 



figure 2 : Systdme d'acquisltlon des connaissances 

d^ontiques 
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Le premier processus consiste en la generation d'une forme pr6trait6e du texte (P4). 
Plusieurs traitements pr^liminaires peuvent etre effectu6s sur le texte du rdglement (A I) lui-mfime: 
mise en Evidence des 616ments de la macrostructure, detection des expressions du m^talangage 
supportant la microstructure, identification des propositions 616mentaires, 

Pour generer la forme pr6trait6e du reglement (A4), on utilise des connaissances relatives 
^ la presentation de la macrostructure du texte reglementaire: mots-cles, separateurs d'enonc^s 
descripteurs specifies par la grammaire de la macrostructure. 

Le processus P5 consiste en une "compilation assist6e" de la forme pretraitee du reglement 
(A4) en fonction de la grammaire du metalangage reglementaire (A7) (grammaire de la 
microstructure), et permet d'obtenir une forme compilee du reglement (A6). Cette compilation 
tient compte dans certains cas d'el6ments presents dans plusieurs phrases du rfeglement. Au cas 
ou une phrase de la forme pretraitde du reglement (A4) ne pourrait pas etre reconnue, le s^sterne 
demande de Tassistance au sp^cialiste (E2). Plusieurs scenarios pourront alors se presenter, "ne 
ambiguite apparait dans le texte, ou la grammaire du metalangage n'est pas suffisamment complete 
pour reconnaitre une expression du texte, etc. Dans chaque cas, on demande au specialiste de 
fournir une solution au probleme rencontre et une explication de sa demarche de resolution que 
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te cogniticien pourra analyser plus tard. Le cogniticien pourra ntiliser la fonction de specification 
du m6lJangage reglementaire (P7) pour apporter les modifications pertinentes d la grammaire de 
la macrostructure (AS) ou d la grammaire du m6talangage reglemsntaire (A7). Cette approche 
permet d'augmenter la richesse du mttalangage rdglementaire avec Texperience de traitement de 
ncuveaux textes r6glementaires. 

La forme compil6e du reglement (A6) pourra avoir diverses caracteristiques en fonction 
des propri6t6s attendues pour la base d'acquisition des connaissances (A2). La forme compilee 
du reglement d^pendra des caracteristiques du moteur ^'inference qui permettra 
d exploiter la BAC. Ainsi pour un moteur d'inference qui permettra de supporter un systeme de 
consultation de bases de connaissances d^ontiques tel que presente k la figure 1. on oourra 
consultei [MOU 88J. 

OA/- P'^ocessus d'integration {P6) de la forme compil6e du reglement (A6) au contenu de la 
BAC reglement (A2) doit permettre d'enrichir le contenu de la base de connaissances du systeme 
de consultation de bases de connaissances d^ontiques. Cette integration se fera en fonction de 
regies d*integration (A8) k preciser en fonction des caracteristiques de la BAC consideree.5. 



5. TRAITEMENT DE LA MICROSTRUCTURE 

La principale fonction du systeme d'acquisition des connaissances consii ^e 4 compiler le 
texte du reglement (pretraite) en fonction des caracteristiques du metalangage r6glementaire 
specifiees par la grammaire de la microstructure. Le resultat de la compilation permet de 
transformer les phrases du reglement sous la forme de structures logiques exploitables par le 
moteur d inference du systeme de consultation conformement aux regies enoncees aux paragraphes 
3.2 et 3.3. 

La grammaire de la microstructure permet au systeme d'acquisition des connaissances de 
proceder a un predecoupage du texte traite. Ce predecoupage met en evidence les principales 
composantes de chaque phrase: operateur modal, connecteurs et portees. 

La plupart des phrases dans un texte de reglement contiennent un operateur modal. On 
appelle operateur modal toute expression qui signale la modalite d'une phrase. Les trois modalites 
les plus courantes sont: 



■ Tobligation (Exemple: II faut qu'un talus soit recouvert de vegetation); 

■ I'interdiction (Exemple: La presence d'un tel dechet dans le sol d'un lieu 
d'enfouissement sanitaire est prohlbee en vertu de la l < i; 

■ la possibilite (Exemple: L'exploitant d'un dep6t en i. .uchee peut y recevoir des 
dechets solides). 



On distingue trois grandes categories d'operateurs modaux: les operateurs monadiques, les 
operateurs diadiques et les operateurs speciaux. Tout operateur modal a une ou deux portees. 

Une portee est une partie de la phrase courante sur laquelle s'applique Toperateur modal. 
Une portee precedant un operateur modal est appeiee portee-avant, alors que portee-arrtere 
designe une portee qui suit I'operateur. Par convention, on indique dans une phrase la portee en 
I entourant d'accolades. 
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Un op6rateur modal monadique a une port^e-arriere mais aucune port^e-avam. La 
port^e-arrifere est une proposition contenant au moins un verbe. 



Un op6rateur modal diadique a une port6e-^avant et une portee-arriere. La portee-avant 
est un terme ne contenant aucun verbe, alors que la port^e-arridre est une proposiiion verbale. 



Un op6rateur modal special est un operateur qui ne correspond pas k la description d*un 
operateur monadique ou diadique. 11 a toujours une portee-avant, mais est priv^ tr^s souvent de 
port6e-arri6re, S^il en a une» celle-ci est un terme non-verbal. 



Une phrase peut contenir egalement, mis k part Top^rateur modal et ses portee, un ou 
plusieurs connecteurs. On distingue trois grandes categories de connecteurs: les connecteurs 
inter-6nonc6s» les connecteurs de condition et les connecteurs d'exception. 



Un conittcteur inter- ^noncis est un connecteur, placd g6n6ralement en d6but de phrase, 
qui relie la phrase courante ^ une autre phrase. "Toutefois** et "Cependant** sont des ixemples de 
connecteurs inter-6nonces, Un tel type de connecteur n'a pas de portde. 



Exemple: Le recouvrement final d*un lieu d'enfouissement sanitaire doit 
6tre constitu6 d'au moins 60 centimetres de terre. Cependaiit, lorsque 
Tepaisseur des couches de d^chets solides superpos^es atteint ou ddpasse 6 
metres, le recouvrement final doit etre const itue d'au moins 120 centimetres 
de terre. 



On appelle connecteur de condition une < xpression qui introduit une condition. Comme 
connecteurs de condition, on retrouve, entre autres, les expressions "si**, "lorsque" et "dans le cas 
ou". Un connecteur de condition peut 6tre place n*importe ou dans une phrase. 11 a une 
port6e-arri6re compos^^e de la condition qu'il introduit. 



Tout connecteur qui introduit une exception est appel6 connecteur d^cxception. "Sauf si"* 
et "a Texception de" sont des exemples de connecteurs d'exception. Tout comme un connecteur 
de condition, le connecteur d'exception a une port6e-arri6re et peut ttre situe n*importe ou dans 
la phrase. 



Exemple: II M qu*{ un talus soit recouvert de vegetation }. 



Exemple: { L'exploitant d'un depdt en tranchee ) peut { y recevoir des 
ddchets solides }. 



Exemple: {La presence d*un tel d^chet dans le sol d'un lieu d'enfouissement 
sanitaire } est prohib^e { en vertu de la Loi }. 



Exemple: Cependant, lorsque { Tepaisseur des couches de dechets solides 
superposees atteint ou depasse 6 metres ), le recouvrement final doit etre 
constitue d*au moins 120 centimetres de terre. 



Exemple: Le recouvrement final doit etre constitue d'au moins UO 
centimetres de terre sauf si { Tepaisseur des couches de dechets solides 
n*atteint pas 6 metres ). 
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6, CONCLUSION 

cie proposee par j. sowa avec sa throne des graphes conceDtueU rv^w rji i « Jl-.^ 
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ANNEXE 1 



Extrait du r^glement sur les d^chets solides 



SECTION 



ENFOUISSEMENT SANITAIRE 



23) Zonage et plaines de d^bordement: 

1- II est interdit d'etablir un Heu d'enfouissement sari'taire dans une plaine de debordement 
ou dans tout territoire zone par Pautorit^ municipale pour fins residentielles, commerciales ou 
mixtes (r^sidentielles-commerciales) et k moins de 150 metres d'un tel territoire. 



24) A^roport: 

1- II est interdit d'etablir un lieu dVnfouissement sanitaire ^ moins de 3 kilometres 
d*un a6roport. 



25) Vole publique: 

1" Aucun lieu d'enfouissement sanitaire ne peut 6tre etabli A moins de 152,40 metres de tout 
chemin entretenu par le ministre des Transports et ^ moins de 50 metres de toute autre oie 
publique. 



26) Distance lie certains lieux: 

I- L'aire d'exploitation d*un lieu d'enfouis.sement sanitaire doit etre situee i plus de 150 
metres de tout pare municipal, terrain de golf, piste de ski alpin, base de plein air, plage 
publique, reserve dcologique cr6ee en vertu de la Loi sur les reserves ecologiques (LRQ, c R-26), 
pare au sens de la Loi sur les par^s (LRQ, e pare au sens de la Loi sur les pares nationaux 
(SRC, 1970, c N-13), mer, fleuve, riviere, ruisseau, etang, mar^eage ou batture. 



27) Distance de certains immeubles: 

^ L'aire d*exploitation d'un lieu d*enfouissement sanitaire dou etre situee i plus de 200 
metres de toute habitation, institution d^enseignement, temple religieux, etablissement de 
transformation de produits alimentaires, terrain de camping, restaurant ou Etablissement hotelier 
detenteur d*un permis delivre en vertu de la Loi sur rhdtellerie (LRQ, e H-3), colonie de vacances 
et etablissement au sens de la Loi sur les services de sante et les services sociaux 



(LRQ, e S-5).28) 
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28) Lacs: 



de^iS^unac^'""^^''"' "^'"^ d'enfouissem-^nt sanitaire doit etre situ6e a plus de 300 



I- 

mdtres de tout lac. 



29) Conditions hydrog£oIogi(|ues: 

innHWJnn?'!.*^^^"'"!™,®"- ^^^'^^'^'^ <i« ddchets solides doit s'effectuer sur un terrain ou les 

'"^"^ ^^"^ lixiviation s'infiltrent dans e Si et que 

le temps de migration des eaux y est sup6rieur a 5 ans avant de parcourir 300 mitres ou avant 

fnJSri^sSS Toiler. ^'^^'"^ ' ralimentation en eau .Stable et siVu "^T'^ne dis an^^^^ 
imeneure a 300 mitres, k moms que ces eaux n^aient fait resurgence auparavant Dans ce dernier 

r?5S"mit'reroaJ ^ " ^'"^'"^ '^'"^ ' ' ""^ vitesse moySn: fnftieure 

^" A ^ °" retrouve pas les conditions hydrogiologiques dicrites au nremJer 

^nl'em'S^^^^^^^^ ^ Y^^" ' ^'^^^^ fdeTa'mi^^agement 

^»lLt?f^ infiltration dans le sol de toute eau de lixiviation. Toutefois, il n'est oas Dermis 

fccStnS " c '''TH '^^'^^"'^ renfouissement sanitaire s une infilS 

T^l^llmionT^^^^^ -PP^ exploitie . desTns 

telles Qu?fes eaux o?nitn«m H^'f d'enfouissement sanitaire sont 

rfn ! • . u P*^^^®"^"^ ^« ce terram s'icoulent en surface ou font resurgence avant 2 ans 
Zt^^ l ^ 'T^"'/ permettant le captage complet de ces eaux ef le traitement ?' > 

celles-ci conformiment aux exigences de Particle 30. iraaement < 



ANNEXE 2 



S 91 ■ 



Quelques reflexions relatives au metalangage 
utilise pour la speciflcation d'un reglement 

Dans cette annexe nous pr6senions une premiere esquisse d'analyse du metalanaaae oui est 
Tu Z'J'V ^^y^^T^' pour dicrire un texte de riglement Ces riHexions ne pSf nf pas une 
H ^fA't ^'"r metalangage, mais offrent un noyau de depart qui permett4 au concepteur 
Cette Tl'rJ'' de reglement du point de vue de la logique deonS 

c'orentl^%^tilfs%^srn[celleTr^^^^^^^^ '^^'^ ^^^'^^^ ^^^^ ^ '^^^s 

du metalangagTrrgrem^^^^^^^^^^ interpretations suivantes pour les expressions les plus courantes 

1. {f(sous reserve de, sauf si, en dehors de, h moins que} Q,J tout X doit P), 
{X ne peut que P, ^ Pexception de Q). 
(pour tout X) elem(x,X) [ &-rQ(x) ]-> P{x) ! 
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2. {[Dans tous les casj tout X, en vue de Q, doit P), 

{Tout X doit P,{de sorte que, de mani^re k, afin de. pour (quej, de facon a) Q) 

(pour tout x) 61em(x,X) & Q(x) -> P(x) ! 

2'. Les X peuvent P, seulement {au cas oii, dans le cas oii, dans le cadre de) Q) 
(pour tout X) elem(x,X) & Q(x) ~> P(x) £ 

3. Dans le cas de X, P. 

(pour tout x) elem(x,X) ~> P(x, ! 

4. {Tout X doit P. {Dans ce [dernier] cas, k cette fin, pour cela) {il faut [quel, il est necessaire 
(que, de), it est obligatoire {que, de), on doit) Q), 

{X doit P, {avant, avant {que, de)} Q). 

(pour tout X)) elem(x,X) -> P(x) ! & Q(x) ! 

5. P est {obligatoire, n6cessaire) pour Q, 

Q -> P ! 

6. {{Toutefois,Cependant)] {i! est interdit de, il n'est pas permis de, nul ne peut, il est 
d6fendu de) P, {en vue de, dans le but de, uniquement pour) Q, [si RJ. 

P & Q [«& RJ -> violation du reglement (VIR) 

7. (si, lorsque, alors que, pendant) P {et (si, que), ainsi que, de meme que) O 
{alors, il faut que, '.') R. 

P & 0 -> R 

8. Tout X qui P, {est, est repute) Y. 

(pour tout x) 61em(x,X) & P(x) -> elem(x,Y) 

9. {Des, Aussitdt) que P, X doit Q. (X doit Q, apres P). 

(pour tout x) elem(x,X) & P(x) -> Q{x) ! 

9'. (Des, Aussitdt) que P, X peut Q, {X peut Q, apres P). 

(pour tout x) elem(x,X) & P(x) -> Q(x) £ 

10. X doit P. Cependant, {lorsque, si) Q, X doit R. 
{X doit P, sauf [si] Q. Dans ce{sl cas, R) 

(pour tout x) elem(x,X) Scf Q(x) -> P(x) ! 
(pour tout x) elem(x,X) & Q(x) -> R(x) ! 
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1 1. 



{il est possible de, il est permis de, i! est admr de) P 



P £ 



IV. 



Les X peuvent P. 



(pour tout x) elem(x,X) 



-> P(x) £ 



Dans le cas o P, Q [,h condition que R] 



P (& RJ 



-> Q £ 



12. 



X doit P. II en est de meme {de, pour) Y. 

(pour tout x) eIem(x,X) 
(pour tout x) elem(x,Y) 



-> P(x) ! 
-> P(x) ! 



X peut P. II en est de meme (de, pour) Y. 

(pour tout x) eIem(x,X) 
(pour tout x) elem(x,Y) 



-> P(x) £ 
-> P(x) £ 



13. Toute combinaison de 'et', 'ou\ 'ne pas', permet d'obtenir de nouvelles propositions (a 
partir de la composition de propositions elementaires. 



Certaines expressions du metalangage reglementaire peuvent permettre de faire reference 
^ d autres articles. 

14. Les {exigences, articles, clauses) C s'appliquent mutatis mutandis {a. aux) X. 

Cette metaregle specific la validite des regies edictees par C pour elem(x,X) 
On peut par exemple : 

■ reecrire les rdgles de C en substituant dans les premisses elem(x,X); 

■ augmenter les regies de C en ajoutant la clause elem(x,X) en conjonction dans les 



15. X doit P, conformement S I'article A. 

Verifier si les regies derivees de Particle A sont confcrmes a cet 
enonce, sinon les modifier. 

16. {Nonobstant, malgre) les autres dispositions du reglement, X doit P. 

Cette metaregle confere une priorite exclusive a cet enonce. 



premisses. 
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17, (ta pr6sente section, le present article} ne s'applique qu'aux X (tels que) enum, 

Cette m^tarfegle d6finit les valeurs acceptables pour X dans 
r^num^ration 6num. 

■ ■■■■■■■BKBS 



ANNEXE 3 
Grammaire de la microstructure 



La grammaire de !a microstructure utilisee par le systeme d'acquisition des connaissances 
est d^finie comme suit 



<phraee> 
<partiel> -> 
<partiell> -> 

<conn tnter-^nonc^> -> 

<con<!ition> -> 
<conditionX> -> 

<conn-cond> -> 

<conn~cond-termo> -> 
<excdptton> -> 

<conn cxcept'ppop> -> 

< conn- except -tenna> -> 
<partio2> -> 
<partie-mod> 

<op-mod-mon> 
<eofnpt#ment> -> 



(<pEirtiel>] <partte-mod> [<partU2>j / 
<partielil> 



<conn " inter-6nonc4a.^ " 
<conn'-int«r- ^nonc6«> 
<conn-intcr-toonc^> / 



<condition> {<fixcQption>) ! 
<excepUon> f 



'•Toutefois" ! •Cep,€ndant* I •'Dans* "tous" -les" "caa" I 
'•Dans" "ce" {"dernier*) "cm" / 

{<conditionl>} / 

<conn-cond><c<Mr|i»'caskd-pst^> ! 
<conn'Cond-terme> <corp«-c<KKi-ktiTxie> / 

<dan8> "le" "cas" "oil" f <!or»que> 1 <8i> f <alor9> <que> ? 

<fta> "condition" <que> f "et" "si" ! "et" <que> f <p4ndsnl> <que> I 

<dAs> <quc> f <aprde> <quc> f <svant> <que ou de> / 

<dane> "le" "caa" <de> / 

<conn-except-prop> <eofp»-excepl-prop> f 
<conn -except- terme> <corp«-e9ccepi-tcrma> / 

<aa> **moin8* <que> I <sou8> "r^&erve* <de> f 
<8auf> ("si") / 

<en> "dehors" <de> ! <aa> "1" "'" "exception"* <de> / 

<condition> {<exc©ption>) f <exceptton> / 

<op-mod-mon> <c«rpo-pori^-aiTiftre> f 
<corps'pQrt^aTcittt> <partte-mod-Buite> / 

<op-mod''diad> <corp»-porl*«-arri*re> f 
<op-mod-Bp^c> {<coip>-pogt^m n ift B e- a pfc>l / 

<il> "faut" (<que>) f <il> ("n" "'") "eat" ["pae") 
<compUment> <que-ou-de> / 

"obligatotre" \ "n^cewaire" ! "interdit" ! 
"ddfendu" f "permtfi" f "poeeible* t *a<lmia / 



230 



<op-mod-diad> •> 
<verb«-mod> -> 

<eompl-op-sp^> ~> 



("ne") <verbe-mod> Cpae*] / 

"dolt- f "dolvent" ! "pour f -peuvont* / 

"eat" <compl-op-8p*c> f 

("ne") <«ippllque> [<pfte-ou qu«>{ [<mut-mut>)/ 

"pennia" ! "pennU«* I "mlerdlt" f "mterdito*' ! 
d^endu* \ -difendtie'' f '^prohib^* f "prohiUe * f 



<appltquo> 




api 


<mut-mut> ~> 


"muistis" "mutandis'' / 




<q ;c-ou-de> ~> 


<que> ! <do> / 




<que> 


"que" f "qu" / 




<dt> -> 


•d«" f "d" ""^ / 




<pa«-ou-quo> 


"paB* r <que> / 




<n> -> 


"II" f -il" / 




<dan«> -> 


"D»*n8- f "d^s" / 




<Iorequc> -> 


"Lorequ©" ! "loraque" \ "Lorequ' 


'^Blors> -> 


"Alore- \ "alorB- / 




<ai> 


"Si« ! •si* / 




<aa> -> 


"A" f "a" / 




<pendun4> -> 


"Pendant" f "pendant" / 




<d^> -> 


"Dda" t "d^" / 




<aprdi3> - > 


"Apr^" f "apr^" / 




<avant> 


"Avant" ! ' avant" / 




<eoufi> -> 


"Sous" ! ^soue" / 




<8ftUf> -> 


"Saur ! "saur / 






"di " f "en" /; 





Les regies d'^criture de cette grammaire sont les suivantes: 
■ La gran.maire se compose de plusieurs r^glci. 



■ I^JIV^^^^ est form^e d'un membre gauche non-terminal, d'une fleche et d'un membre 
droit compose de tern.inaux et de non-terminaux. memore 

}i?roSJerS«nt Tr^f"* ^^'^^^ guiHemets. repr^sente un terminal que Ton peut 
retrouver dans un texte prescriptif (exemplc. "iD. 

■ non-?nl'Tn^ retrouver dans u texte prescriptif, chaque signe de 
ponctuation et T.postrophe sont consid6r6s comme 6tant chacun des tcrminaux qui 
doivent etre places entre guillemets (Exemple: "II" "faut") 
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m Un non-terminal est un mot plac6 entre crochets potntus. II est defini en termes de 
terminaux ei / ou de non-terminaux (Exempie: <il>). 

• Le choix entre plusteurs membres droits f»st indiqu6 par un point d'exclamation 
(Exempie: ''interdit" ! -interdite'* ) 

■ signate la r6p6tition de 0 ^ n fois des symboles places entre accolades (Exempie: 
{<conditionl>) ). 

» [ ' \ 6quivaut ^ au plus une at ition des symboles places entre crochets (Exempie: 
"saur ). 

■ Chaque regie est suivie du symbole 7**- 

■ Le point-virgule indique la fin de la grammaire. 

Certains non*term:naux ne sont pas d^finis dans la grammaire pr^sent^e dans cet article, 
car ils devraient retre pa^ un nombre trop imposant de terminaux possibles. Par exempie, 
<corp$*port6e-avant> englobe toute chafne de caracteres qui precede un op^rateur modal. Nous 
distinguons ces termina^ } • js g^neraux des autres terminaux en les 6crivant en caracteres gras. 
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UN LOGICIEL QUI MIME L'ACTE D'feCRITURE? 



L'abondance des « outils p6dagogiques » informatis6s mis au point pour Tenseignement de 
la langue^ maternelle illustre q j la didactique des langues natt d'abord d'une philosophie de la 
langue, d*une conception a priori qu'on se fait du fonctionnement du systdme linguistique et que 
le logiciel se charge de reproduire dans une espdce de mim^tisme fonctionnel. 

Ainsi, chaque nouveau logiciel qui pretend trailer la langue propose plus qu*un scenario 
informatique; il affiche carr^ment un certain esprit d'intervention dans la langue: d*ou ces 
logiciels n€s qui d'une approche structurale, qui d'une approche stylistique, qui d'une approche 
psychologique... 

II serait faux de pretendre qu'il n'y a pas a la base de LogtTexte^ une pareille conception 
de la langue, une conception qui dicte non seulement les grands paramdtres de I'architecture du 
logiciel comme tel, mais qui determine egalement les comportements de I'utilisateur pour une 
utilisation optimale. 

En effet, nous avons voulu que, dans sa mecanique mdme, LogiTexte puisse mimer Tacte 
de paroie de la fagon la plus simple possible. Nous avons voulu que les professeurs puissent utiliser 
un outil informatique qui serve: 



1) leurs propres besoins d'outils didactiques pour des demonstrations et des exp'Ications 
lors des activites d'acquisition de connaissances; 

2) les besoins d'exploration concrete des usagers (les Aleves) qui veulent toucher, palper 
et manipuler les differents mecanismes de la structure linguistique. 



Des le depart, nous esperions que la pratique quotidienne de LogiTexte en vienne ^ 
sugg6rer Pidee que la langue, dans sa materialite, est un ensemble qui fonctionne k partir de regies 
precises. Mais nous voulions Egalement suggerer I'idee que la langue, comme systeme d'expression, 
n'existe qu'au moment mdme de son utilisation et que la fabrication du texte cree des conditions 
d'exploitation du materiau linguistique qui valent tant par la reprise d'elements stables de la langue 
que par leur transgression. 

Nous avons voulu que les utilisateurs de LogiTexte decrivent la langue comme une 
structure et soient capables de Tobjectiver en ces termes; nous avons voulu qu'ils soient capables 
de decrire leur pratique d'ecriture comme un ensemble mobile et rigoureux. Chaque fois que nous 



^K'Texje est un logiciel de Conception Textuclie Aasist^e par Ordinateur mis an point par les auteiire de cet article ct 
d6velopp^ selon une approche de d^veloppement en contexte par prototvpaye tout au long d'an travail de 
programmation et de validation avoir dea «l6ves de 13-14. Cette experience a eu cours & l Ek-ole eecondaire 
OoUard-des-Ormeaux de Valcartier dans la classe de monsieur Bruno Lalibert^. 
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nous servons du code de la langue pour nous exprimer, nous croons autant que nous emoruntons 

^^"ourcrxTc^^^^^^^^^^^ ^"^^^ procedurmtlaraTepr/e 

rffffir.nt* ^ ^^'^^"^^ empruntons les qui dfisignent les 

tii J^T. f nous voulons voir se r^pandre d^une Oreille ^ Pautre et nous empruntons 

dfcou4 rom*m^/5o« qui se manifestent i chaque moment de la ?oml" du 

iait.ais d'fc^Hr'^llTi'r."*' I' '^'^^ repr^sentent un vaste rdpertoire que nous ne cessons 
irfexicaLs de la Sn^n. J'nf ^^V^''^ d'apprendre les multiples composan- 

Jf la jangue; d ou la n6cessite de commencer cet apprentissage au plus tdt et avec 

SI possible, cette rigueur qui ferait en sorte que I'apprer mt puisse 6teX ses prS^s sur le r^ei 
en se constituant un lexique personnel organise recour i diff6rentes theLSjuS L oremirre 
manoeuvre d'utilisatioa de LogiTexte consiste done ft \ .t\r des fichiers Sau^^^^ ^ 

REPRODUIRE LE FONCTIONNEMENT DE LA LANGUE 

Avec un logiciel qui permettrait ft chaque moment du processus d'^riture 1) de cholsir les 
mots du texte et 2) de combiner ces unites lexicales entre elles pour consVruire V tructure de ll 
phrase nous avons cru quMl serait possible alors d'illustrer Tun des^ aspects les plu? dySoues de 
la langue: celu, de la selection paradigmatique et celui de la combi^aisl syntagmaliq^^^^ 

mraii. i?*^n?c?° ^i"'?''*'^^*^ habilement le processus du discours, disait que chaque acte de 
parole se construit de la fa^on suivante: le loculeur procMe d'abord ft une s^ectloB d'6lTments 
fe s^ieJ na'rZ'^^^^^^^ 'J'' QuMl appelait I'axe p^adi.maii.ue. sorte de rtervdr daS 
iu^in c^.''^?' f"^'! vocabulaire) puis ft une comblnalson de ces memes 




Si on voulait crder un logiciel qui permette ft Tusager de reproduire le Plus fid^lement 

J^courfr t?r'' "^'f '^"^ ^''"^"^^^'^^ essentielles' voqu^e^ pTr jTobson^^ a fSdonc 
recounr ft des structures mformatiques qui permettraient de les iUustrer symboliquement par Tune 

rlir^ZTJ^ ^""T'^- V "^"-^ ™«8iner une structure inform«is?e oTfLnc? onnJ! 

ef unl r.ri fn f- ^''''T'' <l" V^P^^^nterftit I'axe paradigmatique (la m^moireTs mots) 
Tu^kTr^^i^T^^^ syntagmatlque (la combinaison des mots entre 

fi'^l H ^^l^ ""^""^ ^" ^^^^^> «n tenant compte des contraintes prop es 

ft I acte de combmaison lui-meme, c'est-ft-dire au respect des regies de grammaire^ 

UNE BASE DE DONNES LEXICALES + UN feDlTEUR DE TEXTE 

,inrc ninJ'^^l ^asc dc donn^es lexicales et un editeur de texte nous apparaissait 

t f Jl^^J^ ^"'J'^'^^- "'o^^ correspondait assez bien ft Pidee de ce que Jakobson 

Z rl.Tl.t^'f' J^T ^ ^"^'^^"^ ^^""^^ ^"^"^ ^ permettrait d'accomplir toutes les fonctions 
de combmaisons de I axe syntagmatique. 



^^T^r^tr^TT^K lernod^ e ai simple foumi par Roman JAKOBSON. Easai, de hn.r.i,ti»„. 
a^SS*^ li ^oS/L£^""H^*?ff ^ remarqucr que I'acte de p8«,leTaU de deux actions 

Sitrer^nt/LS^filr? 6i<*ment8 lexicaux (mot.) dans le rtservoir personnel de chacun ct 2) 

enchatnement/ mnAm m mm de cea diff^rents mots dans la chalne parl6e de la phraae. 
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L'utilisateur pourrait ^ n'importe quel moment du processus d'ecriture avoir 
recours d une banque de donn^es oii il aurait errmagasine tout un repertoire lexical 
organis6; il pourrait, ^ son gre, commander des suggestions de mots si precises qu'il 
verrait se placer k la position souhaitde un mot (ou des mots) correspondant k la 
categoric lexicale d6sir6e et parfaitement accorde(s) en genre et en nombre avec les 
616ments du contexte imm^diat. Mais plus que tout, I'usager de ce logiciel pourrait 
jouir de toute la latitude d'un syst6me « ouveit » qu'il pourrait construire k sa guise 
et adapter ^ ses besoins d'expression. 



PRODUIRE UN TEXTE COUt 



Avant d'accomplir toutes ces tiches cependant, I'usager devra d'abord consentir ti se plier 
au jeu d'une discipline rainimale: il devra produire un texte chiffr^. Un code d'appel simple - 
un nombre de trois chiffres - permettra 4 Tusager d'indiquer avec precision quelles seront les 
caract6ristiques du mot souhaite. 



■ Ainsi la colonne des centaines permettra d'indiquer la cat^gorie lexicale (nom = 
categoric 100; adjectif = categorie 200; verbe = categorie 300). 

■ La colonne des dizaines signale le genre (masculin = categorie 10; feminin 
= categorie 20). 

■ La colonne des unites indiquera le nombre (singulier = le chiffre 1; pluriel 
= le chiffre 2). 



il est ainsi possible d'obteni- ...c serie de dix variables morphologiques dont I'usager pourra 
commander I'apparition dans son texte au moment voulu. 



Caract^ristiques morphologiques 



Equivalences codecs 



a) un nom masculin singulier 

b) un nom feminin singulier 

c) un nom masculin pluriel 

d) un nom ff minin f'luriel 

c) un adjectif masculin singulier 
0 un adjectif ff minin singulier 

g) un adjectif masculin pluriel 

h) un adjectif feminin pluriel 

i) un verbe singulier 
j) un verbe pluriel 



mm] 

mrm 
DUE] 

mm 
mnn 

mm 
mm 

fTToTTI 
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UN TEXTE CHIFFRl: 



Lorsque les usagers se seront familiarises avec ce code^ c'est a ce moment orecis ou'on 
d^Tri'j;: '1'^°'"' Je concept d'une nouvelle 6crlture paradoxalement Tas^e sTr iL compo^^^^^ 
mnmln^^'^' m^/^m/^fln/e^ (sans signification), de structures d^oti se seraient abs?nt6es 
?hme D^^^^^^ 211';;^ '"h capitales Le Je« consiste alors a cr6er des struck de 
nn^a 0*^ jf principal 6I6ment qui doit apparattre n'est pas le mot mais son i^quivalent num^rique 

cohabYtSt (SLtT.^! Z''"^'' 'r^^'"'- ^^^^^^^^ '««^« et les chiff?es 

PROGRAMMER L»ARMATURE SYNTAXIQUE 

Transpose en contexte p^dagogique, ce protocoJe d'utilisation permettrait h Vuszutr de 
dessmer a prion Tarmature d'une structure syntaxique vide et voire mTme de torn un te^xte n 
rZ?Jnf:j:T'^'' ^^"^"^^"^ ^« P '^^^e - °" son tex e de man'^re M fair" 

nToS ^ Ja/T.^"'"; "^^'^ ^"^ viendraient donner un sens 4 I'ensemble de ce squelette 

... , 9® processus, on le comprendra facilement, aura I'immense avantage de permettre d rusacer 

iZ V! f r"'" ^"^«»°°»ei dissociant ainsi Po^M syntax qu^^^^^^^^ 

reste des composantes Imguistiques de la phrase, Pusager pourra le concevoir comme obiet 

strXre^fyntaxi^^^^^ et proceder . def acq^isitions^e^rnntssa™ 'o'rd're 



CONSTRUIRE SON UNIVERS LINGUISTIQUE 

HA fnof"^™"" logiciel, les mots - bien que sugg6res par un processus de pige au hasard - 
ne font jamais que representer I'univers linguistique de I'usager puisque c'est luf qui dans un 

ETiS'oaf To^f^^^^^^^^^ 1^ ''''r' ^ ''''' ^ s^^dentifiantlLltaname^^^^^ 

mots suggeres par LogiTexte, 1 usager peut alors se reconnaitre - retrouver en quelaue sorte la 

lOEicielVe'^^TLh^^^^^^ ' ^'r" des moments d'.criture. mnrceTco'nditions, le 

linguistiquef^ r^investissement de ses propres materiaux 



POLYVALENCE DES INTERVENTIONS D'ECRITURE 

I ««-r ^y^^^^^^ que I'usager « meuble » au fur ei ti mesure de sa progression scolaire 
LSueTrit''"''^' cl'apprentissage et d'exercices dans la manipSlatfon Tu ma'S 



»Ceux <l"i travailler .vec un code alphab^tique pourront t« faire: un 111 d.vicndra ainsl un #nn«: un 222, un 
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LogiTexte vise 6galenient ^ faire aimer Tdcriture. II va de soi que toute manipulation 
concrete du matdriau verbal qui s^inscrit dans la poursuite des objectifs de production, ne peut 
faire autrement que d^velopper un nombre important de pratiques connexes comma: 



a) accroltre son r6seau lexical personnel 

b) perfectionner ses modules syntaxiques du code ^crit de la langue 

c) affiner ses strategies personnelles de lecture et/ou de d6codage 

d) multiplier les activit^s « brouillonnage » 

e) manipuler le jeu des interactions textuelles (perspectives stylistiques) 



II serait possible de concevoir des scenarios pedagogiques qui integreraient LogiTexte 
depuis les tout premiers instants du primaire. 11 conviendrait alors de voir comment ce 
logiclel-outil peut favoriser Tapprentissage des notions de base du vocabulaire des usagers tout en 
favorisant Tacquisition des habiletes fondamentales de la langue comme la maltrise du schema de 
la phrase simple par exeraple. 



LOGITEXTE: UN LOGICIEL D' APPLICATION OUVERT 

Comme tout logiciel 6ducatif ouvert, LogiTexte ne sera jamais riche que des efforts de 
chacun des usagers pour nourrir ses propres fichiers. A priori, il n'y aura pas dans LogiTexte 
d'exercices « tout fait d'avance » programmes par le maltre ou le concepteur du logiciel. 11 n*y 
aura pas non plus de banques de lexiques que Tusager pourra piller et utiliser comme bon lui 
semble. Tout dolt £tre bftti par Tusager: les lexiques, les structures et les textes, bien sOr! 

Tout dans LogiTexte est construit de telle sorte que Tusager puisse Infervenir le plus 
souvent possible dans le processus d^^crfture. LogiTexte ne permettra jamais autre chose que la 
reproduction exacte des competences de Tusager. En fait, LogiTexte ne travaille qu'^ partir des 
matieres premieres qu*on lui apporte; voil^ pourquoi il ne peut 6tre autre chose que le reflet 
ponctuel de la competence linguistique de chacun, qu'il pourra, avec la complicity du maitre, 
parfaire et bonifier. 

C*est pourquoi, en ouvrant LogiTexte pour la premiere fois, Tusager sera devant une 
structure vide, une nouvelle structure ou un oouveau lexique. Pour parvenir ^ Tecriture, il devra 
faire ce que fait toute personne lorsqu'elle apprend sa langue: 



1) apprendre des mots 

2) les repertorier dans des fichiers lexicau^ personnels 

3) formuler des schemas de phrases confor^aes ^ la syntaxe frantaise 

4) inserer au bon moment (dans les bonnes positions) les bons mots. 



OLviilR LA CTAO AUX BESOINS DES INDUSTRIES DE LA LANGUE 

Nous croyons que le principe de la CTAO pourrait 6tre appliqu6 avec profit pour des 
segments precis de la clientele des industries de la langue. Nous comptons bien poursuivre nos 
recherches et appliquer ces principes aux besoins redactionnels de certain type d'entreprises 
(conception publicitatre, redaction de rapports, conception textuelle au sens large). I^s logiciels 
comme LogiTexte pourraient depasser le cadre de formation scolaire et s^aju^ter aux besoins de 
formation permanente et de r^cyclage des employes et des cadres d'entreprise. La CTAO pourrait 
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^!!? »a 'angue de franchir un pas dans la tache qu'elles se sont fix6es 

f^['rf„rsSlaSSSr manipulation au sens large des eSf tel^ud^^^^^^^ 

lonciions aeja decntes d autres fonctions capables notamment de rep^rer dans un texte le sen^ 
precis d'un mot donnfi. « s'agit la, croyons-nous. d'un outil qui sera pSrticulS^ment appr^^^^ 
traducteur. et de ceux qui s^nt^ressent aux probl6mes d'apjrentissaie d'une langue Sde 
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Le terme «s^mmtique» est largement utilise par tons les informaticiens 
sUntiressani au traitement automatique des langues natureiles. Par ailleurs. le terme 
est aussi ctmnu et employ^ par des chercheurs provenant d'auires disciplines, telles 
la philosophie du langage et la linguistique. S'agit-il toujour s de la m^me 
simantique? A fin de r^ pond re a cede question, nous passerons rapid ement en revue 
ce que Von entend par «s^mantique» en informatique linguistique. Ceci nous amenera 
d nous interroger sur la place de la linguistique en intelligence artificielle. 
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Le terme «s^mantique» est largement utilise par tons les informaticiens 
s'int^ressant au iraiiement automatique des langues naturelles. Par ailleurs, le terme 
est aussi connu et employ^ par des chercheurs provenant d'autres disciplines, telles 
la philosophie du langage et la linguistique. S'agit-it tou jours de la mime 
s^mantique? Afin de r^pondre d. cette question, nous passerons rapidement en revue 
ce que Von entend par «simantique» en informatique linguhtique. Ceci nous amenera 
a nous interroger sur la place de la linguistique en intelligence artificielle. 
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La production d une parole de synthese de bonne qualite exige une connaissance 
approfondie des structures et des elements qui composent la chaine parl6e (Santerre- 1988) 
L 6tude que nous avons entreprise s'inscrit dans la fou!6e des recherches fondamentales en 
Iinguistique. Elle a pour objet les variations des dur^es vocaliques en frangais et vise Telaboration 
d un modele pouvant etre utilise pour la synthese par regies. 

u ^?«o^«f nombre considerable de facteurs pouvant modifier les durees segmentales 

iQ??! ^"'^"^ ""'^^ recherche au cadre d^fini par la rime syllabique {Selkirk: 

Syllabe 



(attaque) A r (rimo) 

; / \ 

; (noyau) N c (coda) 

C (C) V C (C) 



L exercice auquel nous nous sommes livree consiste ^ decrire, regrouper et classer certaines 
voyelles du frangais, en nous basant sur leurs durees respectives ainsi que sur les modifications 
que subissent ces durees selon la nature des consonnes formant la coda. L'analyre des donnees 
recueilhes nous permet done d'operer certains classements pour les voyelles sur la base des 
variations des durees mtrinseques et co-intrinseques (Klatt: 1976). 

Les variations des durees intrinseques concernent les voyelles prises isol6ment. Du point 
de vue phonetique, les durees vocaliques varient selon les degres d'aperture; voyelles fermees 
6tant syst^matiquement plus breves que les voyelles ouvertes. On qualifie aussi de variations 
intrmseques les differences de duree entre voyelles contribuani a des distinctions phonologiques 
Le trait de duree peut supporter a lui seul les oppositions phonologiques ou atrc assorti de 
variations de timbre, comme cela est le cas en franco-qu^becois (Santerre: 1974). 

Les variations de duree de type co-intrinseque sont celles associees k la concatenation des 
unites dans la chaine. La juxtaposition des segments vocaliques et consonantiques a pour 
consequence de modifier les durees segmentales. Une voyelle, par exemple, sera plus breve ou 
plus longue selon que la consonne qui lui succede comporte le trait de sourdite ou de sonorite. 

II exisfft toutefois, entre les segments juxtaposes, des liens plus ou moins etroits. Ainsi 
les voyelles subissent davantage influence des consonnes qui leur succedent que celle des 
consonnes qui leur sont anteposees. Ce phenomene observe en phonetique trouve une 
correspondance dans les theories phonologiques fondees sur la structure des syllabes Selon 
certaines approches de la phonologie metrique, le noyau et la coda d'une syllabe sont plus 
mtimement Ii6s que ne le sont I'attaque et le noyau (Selkirk: 1980) 
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Nous avons done confu un corpus nous permettant d'observer le noyau et la coda dans 
leurs rapports temporels au sein de la rime. Un ensemble de phrases 4 lire dont les structures 
syntaxiques et accentuelles demeurent invariantes, ont 6t6 soumises i des locuteurs. Ces phrases 

?1 ^^J^J'S -7 ^^^J}^ °" "^^ d^tonne" renfermaient des mots ou des 

logatomes de structure #CVC#. Ces s6quences de trois segments d^butaient par la consonne /p/ 

ti c«o„>'b" segments vocaliques que nous avons retenus sont repartis sur trois degrds d'aperture. 
11 s agit des voyelles ferm^es /i. u/ ainsi que de voyelles ouvertes et mi-ouvertes, orales et nasales 
S?."nnL?;tl;?nc ^'•."^-.^"^ertes orales, nous avons v6rifi6 Texistence, chez nos locuteurs; 

d opposit oj de dur6e en mduisant par le biais de la graphie (p.e. patte - pate) des voyelles 

l^T^ -Kit^X^l!"^' ^i^ * ^^' par nature (Santerre: 1974). Le systeme vocalique maximal qu'il nous 
6tait possible d*obtenir de cette fa^on est le suivant: 

i u 

E/3 E 

a/ Q S * 

Les segments formant la coda dans les sequences #CVC# nous permettent d'^valuer 
linnuence que r^euvent exercer sur les voyelles les traits consonantiques d'occlusion de 
constriction, de sourdit6 et de sonority. Les consonnes retenues sont /p t k b d g/ pour les 
occlusives et /f s J v z 5 / pour les constrictives. Ces contextes consonantiques peuvent 6tre 
regroup^s selon leur tendance k allonger ou & abr6ger les voyelles (Klatt 1976). Le trait de 

,^!^-'f T ci'occlusion forme une combinaison abr6ge<jnte alors que celui de sonorite 
jumeI6 au trait de constriction produit un contexte allongeant. L'inHuence que peuvent exercer 
les occlusives sonores et les constrictives sourdes est alors consid6r6e comme moins importante. 

f«„.,-.-^S^ If. Pfoc^e 4 r6tude des productions orales de deux locuteurs, Tun d'origine 
francaise, I autre d'origine qu6b6coise. L'introduction de cette nouvelle variable d6termin6e par 
tf^ZV^^^^ nos mformateure est motiv6e par une tendance bien connuc consistant a d^laisser 
les oppositions complexes du timbre et de dur6e dans le fran^ais hexagonal (Martinet 1969) Par 
contre, Delattre et Monnot ( 1 98 1 ) ont d6montr6 que les voyelles nasales comportent des dur^es plus 
importantes que leurs contreparties orales dans cette vari6t6 du fran^ais. 

♦ ^ franco-qu6b^cois, en plus de confirmer le maintien des oppositions entre deux E 

et deux A, les 6tudes nien6es par Jacques (1974) et Santerre (1974) ont permis de demontrer que 
les voyelles longues et braves par nature rdagissaient diff^remment aux contextes consonantiques 
dans la rime. Les braves telles que /a/ et /E/ sont plus mall^ables et sont beaucoup plus 
innuenc6es par la consonne^ qui leur succede que ne peuvent VHre les longues / a/ et / 3/ ou 
encore es nasaJ^ /a / et /E/. A ia difference de ces deux etudes, nous avons tenu i contrdler 
toutes les variables dont nous ne desirons pas mesurer Pinnuence (variables rythmioues 
accentuelles, syntaxiques, etc.). 

Les resultats pr6sent6s ici sont issus d'un corpus pr^liminaire ou nous avons volontairement 
limite notre champ d investigation aux 616ments formant la rime syllabique. Les voyelles sont 
regroup6es sous les phonemes que nous avons tentd d'induire dans les tableaux. Ainsi, nous avons 
mis sous le phoneme /a/, les realisations obtenues dans des sequences #CVC# telles que "pate" 
Ces regroupements provisoires .sont reevalu^s en raison des criteres que nous avons retenus. Nous 
commenterons ces tableaux en tentant de categoriser les voyelles sur la base de ces mSmes criteres 



•Pour iee voyeI!e8 orales: /a/ de "paUes". / a/ de •p&te.", /E/ d« -faiteB- et / j / de -fdtes" 
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TABLEAU I: 





Dur^es snoytnaes dcs 






fr , 


France 


f 




/u/ 


114.1 ms . 


/i/ 


108.9 IPS. 


/i/ 


129.7 


/u/ 


109.3 


/E/ 


141.6 


/E/ 


117.7 


/a/ 


146. 5 


/a/ 


136.8 


/a/ 


146.6 


A/ 


204.7 


/V 


160.9 


/^/ 


206. 3 


/E/ 


210,1 


/t/ 


211.4 


/a/ 


223.6 


/5/ 


212.8 



Chez nos deux informateurs, les durees moyennes des noyaux vocaliques tendent ^ 
conf irmer le ^Tincipe selon lequel la durde augmente avec le degrd d'aperture. Cette tendance est 
toutefois inveri^e au niveau des voyelles longues attendues soit /a/ et /?/. Ce sont, par ailleurs 
les voyelles nasa» *s qui pr^dominent au plan des durees. 

Les principales differences observ^es entre nos deux informateurs se retrouvent chez les 
voyelles longues orales que nous avons tenta d'induire. Chez notre locuteur franfais, le /a/ n'est 
pas distinct du / a/ alors que le /3/ long a une dur^e moyenne sup^rieure i celle du /E/ bref. 
Dans I'ldiotecte de notre informateur qu6becois, on voit s'operer une coupure assez nette entre les 
voyelles /i, u, a, E/ qui font partie, selon Santerre, des voyelles breves et /a, :^ a, E/ qui sont 
pour les deux premieres, des longues par nature. 

^ L'observation des durees moyennes des noyaux vocaliques ne nous permet pas de poser 
1 existence d*un groupe de longues orales dans Tidiolecte de notre informateur fran^ais. II serait 
plutOt hasardeux, en effet, de croire que les differences de durees entre / 3 / et /E/ pourraient 
etre significatives alors que, par ailleurs, /a/ et /a/ ne se distinguent pas Tune de 
l autre sur cette base. 

Dans I'echantillon recueilli chez notre informateur franco-quebdcois, les durees moyennes 
nous portent ^ distinguer deux groupes de voyelles, des breves dont la duree moyenne n'excede 
pas 150 ms et des plus longues dont les durees depassent 200 ms. 



TABLEAU II: 
Ecart S Is moyenne en % selon ia nature de la coda 





France 










!frt 














X 


ptk 


bdg 


fsj 


vz 5 




X 


ptk 


bdg 


fsj 


v:: 3; 


/i/ 


129.7 


-42% 


-12% 


-13% 


^65% 


/i/ 


108. 9 


-36% 


-23% 


- 8% 


67% 


/XX/ 


119- 1 


-29% 


-11% 


-101 


•^47% 


/u/ 


109. 3 


-43% 


+ 71 


-27% 


•^82% 


/a/ 


146, 5 


-27% 


6% 


-19% 


452% 


/a/ 


136. 8 


-331 


+ 7% 


-12% 


+ 3 5% 


/E/ 


141 . 1 


-35% 


-13% 


-18% 


+ 65% 


/E/ 


117. 7 


-23% 


-15% 


-12% 


+ 60% 


/o/ 


146.6 




- 2% 


-15% 


+ 34% 


/a/ 


204.7 


+ 5% 


-15% 


- 3% 


+ 12^ 


/ 


160.9 


-39% 


- 7% 


-20% 


+ 67% 


/V 


206. 3 


-14% 


-12% 


0% 


+ 25^c 




223. 6 


-12% 


-11% 


- 9% 


+ 10% 


/a/ 


212.8 


0% 


0% 


" 6% 


Ot 


/£/ 


210. 1 


-13% 


- 1% 


- 5% 


+ 18% 




211.4 


0% 


- 9% 


- 6% 


01 
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tr^if. analyse, nous avons introduit les variables constitu<^es par diff^rents 

traits consonantiques. Nous pouvons alors ^valuer rinHuence exercee sur les novaux 
vocahques par les caractdres d'occ'usion, de constriction, de sourdite et de sonorite Ce 
tableau mdique en pourcentage, ce qu'i! faut ajouter ou retrancher a la dur^e' des 

I^Li .^"^ ^'^f ""'^ "^"'^^ moyenne pour chacune d'enire elles dans des contextes 
consonantiques precis. 

A ^F^f constatons immediatement que les voyelles varient davantage lorsqu'elles 
pr^cddent les occlusives sourdes /p t k/, oil elles s'abr6gent, et les constrictives sonores 
/V z / devant lesquelles elles s Uongent. On peut distinguer, i cet 6gard, deux 
ZuT\ 1°^^"^' "5?.. 'nformateurs: celles qui varient de fa?on marquee el 

ceiies qui subissera des modifications moins importantes dans leur dur6e Ce dernier 
type de voyelles serait, en quelque sorte, moins permeable k Pinfluence exeicee par 
ff^-rra"""^ abr^geantes et allongeantes formant la coda. Elles correspondraient. par 
le tait meme, aux longues phonologiques telles que d^crites par Santerre (1974). II s'agit ies 
voyelles / a, 3, a. E/ dans Pidiolecte de notre sujet qu6b6cois et des voyelles nasales / a E/ chez 
notre locuteur frangais. / o» *-/ 

rfu nh^!l51^ /l"! variations de dur^e soient moins marquees dans les realisations 
du phoneme /a/ attendu chez notre informateur fran9ais, nous considerons que le 
comportement de cette voyelle s'apparente davantage a ctlui des voyelles /i u a E/ 
'iL Jl}^' <^es voyelles nasales, beaucoup p as stables. II nous est done impossible, ici encore de 
^ser une distinction sans equivoque entre les voyelles /a, E/ et /a, ^/ dans I'idiolecte de notre 



TABLEAU III: 
Partie de !a rime occupie par la voyelle 





France 




















ptk 


bdg 




vz 5 




ptk 


bdg 


fs/ 


V2 ^ 


/i/ 


251 


56% 


?3I 


70% 


/i/ 


44% 


44% 


48% 


62% 


/u/ 


211 


411 


m. 


61% 


/u/ 


37% 


68% 


in 


65% 


/a/ 


38% 


58% 




67% 


/a/ 


52% 


57% 


£6% 


66% 


/E/ 


IH 


Sl% 


32% 


65% 


/E/ 


42% 


50% 


36% 


63% 


/a/ 


Ml 


58% 


16i 


65% 


/cV 


73% 


71% 


57% 


76% 


/V 


32% 


61% 




75% 


/V 


66% 


68% 


57% 


76% 


/a/ 


60% 


85% 


42.1 


77% 


/5/ 


78% 


75% 


66% 


74% 


/E/ 


56% 


66% 


43^ 


72% 


/E/ 


79% 


77% 


65% 


7b% 



Comme en fait foi ce tableau, nous avons considere la rime syllabique conune une entite 
au sem oe laquelle le noyau et la coda occupent une portion determinee de la duree totale La 
pertinence d etudier les segments en ayant recours au concept theorique de la rime syllabique a 
et6 pressenti par certains chercheurs dans le domaine de la synthese de la parole (Klatf 1987) 
Toutefois, il n y a eu aucun effort dirig6 en ce sens jusqu'4 present L'expression des rapports 
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entre voyelles et consonnes nous permet, comme nous le verrons plus loin (cf. tableau IV) de 
caractcriser les rimes de telle sorte qu*on puisse, sur la base des durees, en determiner la 
composition segmentate. 



Les resultats presentes dans le tableau III nous permettent de constater que les voyelles 
occupent syst^matiquement plus de la moitie de la duree totale de la rime lorsque la coda est une 
constrictive sonore. Chez notre informateur quebecois, la voyelle domine toujours dans la rime 
si elle est soit une nasale soit encore une tongue induite. La portion temporelle qu'occupent ces 
voyelles tend cependant t diminuer si elles sont entravees par /f s f /. Lorsque ces mdmes 
consonnes suivent les voyelles /i, u, E, a/, ces dernieres representent'moins de la moiiie de la 
dur6e totale de la rime. 



Pour ce qui est de notre locuteur fran^ais, les voyelles nasales tendent a dominer dans la 
ime* Ce sont, en outre, les seules voyelles ^ occuper plus de 50% de la dur^e totale devant les 
occlusives sourdes /p t k/. Lorsqu'elles precedent les constrictives sourdes /f s J / elles sont alors 
dominies par la coda. Ce ph^nomene correspond bien h ce qui a ete observ^ chez notre sujet 
quebecois dans ce contexte cons^/nantique. Au niveau des voyelles orales, il n'y a pas de difference 
syst6matique dans le comportement des breves et des longues induites. 



Suite aux observations que nous venons d'effectuer dans les tableaux I, 11 et IIL nous 
formulerons les conclusions suivantes: il existe bel et bien deux groupes de voyelles dans les deux 
idiolectes analyses; un groupe de voyelles longues et un groupe de voyelles breves. Chez notre 
informateur francais, 'e groupe des longues est forme strictement par les voyelles nasales alors que 
dans ridiolecte de notre sujet quebecois, ce groupe comporte, en plus des nasales, les 
voyelles / a, 3/. Ces deux voyelles orales se distinguent phonologiquement des breves /a E/ et 
se comportent, de fagon g^nerale, comme des voyelles nasales. 



Les caracteristiques des voyelles longues produites par nos deux informateurs sont: 



1) des durees moyennes plus importantes; 

2) une certaine "impermeabilite** face a Pinfluence que peut exercer la coda; 

3) une tendance nette a dominer dans la rime syllabique. 



L'ensemble des donnees que nous avons recueillies nous a permis d'eiaborer un modele de 
la rime (plus ou moins precis 4 ce stade de notre recherche) pour chacun de nos locuteu.s. Ce 
modele tient compte de I? duree totale de la rime, de la composition des codas et des portions 
occupies par les voyelles et les consonnes dans la rime. 



Bien que notre but soti de produire des modeles qui soient exploitables pour la synthese 
par regie, nous pouvons aussi envisager des applications possiMes en reconnaissance de la parole, 
Les criteres auxquels nous avons eu recours pour determiner ces ''profils*' pour les rimes pourraient 
servir d'indices quant a la nature des noyaux syllabiques ainsi que sur la composition consonanti- 
que de la coda. 
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TABLEAU IV: 



% de V 



% de V 



/fs]/ 359 nis 33% (voy. oralc) /VzV 291 ms 

416 ms 46% (voy, nasale) 318 ms 

Azy 323 ms 67% (vcy. orale) /fsj/ 272 us 

334 as 75% (voy* nasale) 307 b» 

/ptM/ 283 IRS 35% (vcy. orale) /bdg/ 216 ms 

328 ms 58% (voy, nasale) 261 ms 

/bdg/ 232 ms 56% (voy. orale) /ptX/ 186 

303 ms 75% (voy, nasale) 280 ms 



64% (voy, btT^ive) 

75% (voy, longues 
et nasal es) 

41% (voy. hrtVB) 

61% (voy. longue 
et nasale) 

52% (voy, br^G) 

76% (voy. longues 
et nasal es) 

44% (voy, brieve) 

74% (voy, longue 
et nsisale) 



Ces modeles, bien quils soient dans leur etat actuel tr^s approximatifs, confirment la 
pertjnence d une 6tude phon6tique bas6e sur les constttuants de la syllabe. lis r^velent en outre 
I importance de poser des divisions entre voyelles longues et brdves par nature si Ton veut fitre en 
mesure d^elaborer des algorithmes precis pour la synthese du fran?ais. 



*Le6 rimes soni pr^nt^es uanc un ordre de dur^ d^croigeant. 
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Titre Recherche d'une description syntaxique contrastive des noms 
composes N de N du fran^ais et N di N da N de Titalien 



Cette communication a pour but de presenter differents proht ernes r attaches a 
la traduction des noms composes N de N du frangais et N di N/N da N de iitalien. 

Notre object if etant de r^aliser un dictionnaire elect ronique bilingue des noms 
composes^ nous avons rencontre un certain nomhre de difficultes. tant theoriques que 
pratiques, que nous avons traitees de la fagon suivante: 

Des traits semantiques ont permis de distinguer les grandes classes dans chaque 
langue : 



B le classement : 



-les concrets non-animes 

-une dent de lait- un dente di latte 
-les animus 

-un homme d'affaires-un uomo di affari 
-les abs traits 

-une peine de coeur-una pena di cuore 



m la traduction : 

Nous avons envisage differents niveaux de traduction selon quil y a 
ou non correspondance structurale entre les deux langues, 

m rergonomie du dictionnaire : 

Comment donner a Vutilisateur la possibililc d*obtenir immediatement 
et facilement la bonne traduction du nom compose demand e 

Le dictionnaire qui resultera de cette etude comparative du frangois et de Vitalien 
comprendra environ 20 000 mots, formes flechies comprises. 

Ce dictionnaire. outre le fait quil sera un outil indispensable d'aide a la 
traduction, servira aussi a Vutilisateur de correcteur orthographique. 



RESUMfe 




Auteure EHsabete Raochod 

Universidade de Lisboa 

Titre Relations entre verbes supports Pr6dicats nomtnaux support6s 
par ESAR et TER en Portugais 



The analysis of 2000 predicative nouns supported by the support verb estar in 
Portuguese confirmed ZS. Harris' Itypothesis that there are nouns which form the 
nucleus of sentence : simple sentences with support verbs. In a support structure, 
the supported N behaves as the main element and it selects the other constituents in 
the same way as ordinary verbs do. 

A significant amount of those 2000 nouns accept both elementary support 
verbs estar and tcr (to be. to have). Relations between the two Vsup constructions 
can be : 



(i) simple Vr^n cOiomutation : 

A Ana esta com medo de fazer isso 
A Ana tern medo de fazer isso 

(Ana is with fear of doing that) 
( Ana has fear of doing that) 



( ii) more complex one^ : 

A situaccao esta sob o controlo da Ana 
A Ana tern o control o da situacao 

(The situation is under the control of Ana) 
(Ana has the control of the situation) 



The presentation will develop points (i) and (ii). 



^ scenario OE OgVELOPPEMENT 
DeS» mOUSTRIES i3E lA tANGUE 



RtSVMt 

Le potentiel d'applicaiion de Vinformatique linguistique dans le iramil de bureau 
est inorme. Les outils d'aide au travail sur le lexte, Vexploitation de bases de 
donnees textuelles, et les applications hors-texte constituent les principales categories 
d'applications en informatique linguistique. Ce type nouveau d'informatique suppose 
que soient developpees les connaissances linguistiques qui viendront se rattacher aux 
deux composantes principales : I'analyseur syntaxique et la base de donnees 
lexicales. II y a me tension entre Vanglais et les diverses langues nationale:. Des 
Elements de strategic pour la langue frangaise sont proposes : interit d'un atelier de 
genie linguistique et cognitif. posit ionner la langue frangaise par un effort 
francophone de mise en commun et de cooperation. La langue doit ^tre d^couverte 
sous un aspect nouveau de technologie de ^information capable d'ameliorer la 
productivite d'au moins 40 % de la main-d'oeuvre totalc dans une economic avancee. 



1. CONTEXTE 

Dans sa breve mais fulgurante evolution, Tinformatique a constamment envahi de nouveaux 
secteurs d'activites humaines : cette diversification comprend les base" de donnees, la robotique, 
le traitement de texte, etc. 

Un nouveau secteur, les industries de la langue, est en voie d'emergence. On peut les 
definir comme les industries qui produisent des biens et services fortement dependants de bases 
de donnees et algorithmes sur Tun ou plusieurs des niveaux de description d une langue naturelle. 

Ces descriptions font Tobjet de la linguistique, soit un ensemble de disciplines scientifiques 
et de champs specialises d'analyse qui ont pour objet la langue en elie-mdme. 



1.1 Besoin 

Pourquoi des "industries de la langue" emergeraient-elles? Fondamentaiement, pour tirer 
piofit d'une nouvelle forme d'accumulation dans le systeme d'information des organisations, non 
plus de donnees chiffrees, mais de texte. Du "texte", c'est quelque chose .Ion', on peut dire que 
c'est en frangais ou une autre langue. Des mots, phrases, paragraphes, c^cuments, banques 
d'information avec "fiches" composent un volume textuel important, actuellement sous-exploite. 
Telle est la cible des "industries de la langue" qui requie'-ent le developpement de Tinformatique 
linguistique. 
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1.2 laformatique linguistique 

fournisim ?eT!?u^^^^ '^^'^^ important dans le travail de bureau en 

lournissant aes outils d aide devant permettre aux gens: 

■ de mieux 6crire en fran$ais; 

■ de mieux consulter ou analyser des textes emmagasin^s sur support electronique- 
d'oSe^trtextuX ^""'^ "^^^ ^^"Suc- usuelle. le contenu 

Hac t'l ^'^^'^ ^l^l'P ^? informatique linguistique ce qui a 6t6 fait en informatique num6rique 
Des outils puissants d'exploitation de matrices contenant des chiffres ont et^ mis au L>iTDaJ dP. 
lTr?':r nf '"''r inganieurs, sp^cialistes en comptabilit^/en physTqL. e^ L'6tL de 
Ule^LnHSb^e^^^^^^^^ comparativement peu avanc^.' Les connai^al^es sent en 

Tu'ZteT^Tse ?o^nceXt: ^"^^ ^^""^^^ '^^^^'^ — » ^V"-^^^^^^ 

1.3 Deux hypothecs de d^veloppement 

Comment va se ddvelopper cette partie des industries de la langue qui depend d- s avancee«: 
scientjftques et pratiques en informatique linguistique? avancees 

pour 1992! ^'""^^ ^^'^^'''^ P*"^^^*' ^^8"^^"^^ ^« -"a^^he suivants 



■ traduction 



■ 



interrogation de bases de donnees 
interfaces de dialogue 
analyse de contenu des textes 
aide & la redaction 
reconnaissance/synth^se de parole 



Po. « ^^"^ subdivision est interessante. bien que relativement conservatrice. LMnterpr6tation qui 
lingui^fque"' '"'^"'^^ ^^^^^^ d'SmaSque 

Une autre 6tude, souvent citee, est celle de Tim Johnson (Ovum Inc., Londres) qui orend 
une perspective organisationnelle et met I'emphase sur le vocabulaire propre t une organ isat^i^^^^^ 

rf^'nlT^^^^^f ' '"""^' T ^""^ ^'"^^8^' ^"^'^ ^ structure cLceptS nscrlfe 

dans les outils et ressources mformationnelles d'usage commun. Son analyse se singular "se o r 
I importance qu'il accorde ^ un appareil qui transcrit une dictee vocale en tfxte Les autre 
applications principales que Johnson pr6voit sont • 



les interfaces aux bases de donnees et logiciels 
I'analyse de contenu des textes 
la correction gramma^icale 
Taide k la traduction 
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Ces applications sont assez concordantes avec celles de la premiere etude. Comme la 
pr6c6dente aussi, le partage de ressources Hnguistiques est sous-estime, mais pas autant puisque 
Johnson a bien vu Timportance des vocabulaires en usage relativement ^ un ensemble de concepts 
arranges en modeles. 



1«4 Le risque d^anglicisation 

Uanglophonie domine largement encore Tindustrie informatique. M^me te projet 
franco-europ6en Emeraude d*atelier de genie logiciel comporte un langage de programmation dont 
les mots sont anglais! L'anglais profile egalement d*dtre ta langue de communication scientifique 
la plus partag6e et cela se r^percute en informatique. 

Mais au-de1^ d*un certain seuil de complexity, un usager devrait pouvoir conceptualiser et 
s'exprimer dans sa langue d'usage. Les langues autres que Tanglais ne seront pas bien desservies 
par les forces du marche existantes. Pour le personnel informaticien existant, ces nouvelles 
exigences et opportunites devront faire Pojet d'un complement de formation. 



2. SCENARIO 

Pour corriger le marche, il faut organiser des actions de developpement linguistique sur 
la langue fran^aise en vue de Texploitation mieux soutenue par des logiciels de textes rediges en 
fran^ais. Cest d*ailleurs ce que soulignait Tetude britannique dej^ citee (ma traduction) : 

''plusteure natt' as [non Anglophones) vont consid^rer leur propre langue trop 
importanfee pour la laisser expose aux forces du marche. et p^uvent intervenir pour 
s'assurer que des d^veloppements cl^ en traitement de langue naturelle ae fasaent 
avec I'appul des gouvemementd nation aux* 



2.1 Categories d'appllcations 

''Industries de la langue" est une designation commode d*une serie de contextes d'usage de 
rinformatique : c*est en decrivant Textension de ce qui est couvert par le terme qu*on peut en 
circonscrire le sens. Quels en sont les types d*usagers et de produits previsibles? 

2AA Types d^usagers 

a) "langagiers** ou personnel specialise en travail lie a la langue : traducteurs, terminolo- 
gues, chercheurs, redacteurs techniques, reviseurs, etc. avec des besoins en commun 
ainsi que des besoins specifiques lies a des caracteristiques distinctes de tSche. Ce 
groupe adopte t6t les innovations et peut payer cher le bon produit en proportion du 
gain de productivity escompte. Source importante d'evaluation pragmatique des 
produits avant quails parviennent au type d^usagers suivant. 

b) personnel effectuant du travail semi-specialise avec les textes, au niveau des t&ches de 
secretariat par exemple. Ce groupe n'adopte que les outils robustes et pas trop 
complexes, directement utiles, et moins coQteux. 
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c) le public en g6n6raU recourant aux mames outils que le groupe precedent, ou a des 
outils plus simples encore. Le grand public recouvre aussi des besoins d'apprentissage 
de la langue, ainsi que nombre de besoins pratiques et ludiques. 

2.1.2 Types de produits 

II est difficile de classifier les produits previsibles en raison d'une interrelation complexe 
entre cnteres en cause, notamment : 



■ 

B 
B 



Skagit- il d'un outil de d^veloppement ou d'une application? 
s'agit-il de contenu interrogeable ou d'une fonction de calcul? 

des m^canismes sophistiqu6s d'inf6rence, d'appariement et d'analyse sont-ils utilises 
ou d»sponibIes? 

I'application concerne-t-elle une base de donnees textuelles ou une base de donndes 
num^riques? 



Notre synthase est de regrouper en trois classes les produits existants et previsibles : 



a traitement de texte 

■ exploitation de texte 

■ applications ailleurs que sur texte. 



a) Traitement de texte 

Principale application de I'informatique dans les bureaux si Ton considdre le nombre 
d usagers. <;:a fait peu d'ann6es que Tusager francophone est ^ pcu pr6s bien desservi 
pour le fran9ais et ses fameux accents! La pcrsonne qui utilise un logiciel de 
traitement de texte peut s*en tenir & une simple saisie ou transcription, auquel cas la 
correction orthographique et des fautes d'accord conviendrait. Si la personne qui 
utilise le traitement de texte compose un texte, si elle en est Tauteur, une correction 
plus pouss6e, grammaticale et stylistique, serait utile. A la frontiere du traitement de 
texte, I aide ^ la redaction s'appuie sur des systfemes experts pour la redaction d*une 
lettre d affaire, d*un curriculum vitae, d'un rapport de tel type, etc. 



b) Exploitation de texte 

Dans les bureaux, quelques ann^es d'usage du traitement de texte ont permis 
' ?;5."!?"'^^*0" g''ands volumes de textes. Les outils pour maitriser leur volume sont 
dif!iciles a trouver. Les systemes courants en informatique pour la gestion des bases 
de donnees sont penses en fonction de structures de donnees matricielles. Si cela 
convenait encore pour les systemes de gestion documentaire & base de thesaurus, la 
percee a t\h le recours & un "fichier inverse" des formes lexicales avec adresses dans 
le texte. Cette technique tire parti du fait que le nombre de vocables dans la langue 
est relativement restreint par rapport au nombre de mots dans les textes emmagasinis. 

Pour la langue fran9aise, il existe diff6rents logiciels ayant cette capacite de fichier 
inverse, (exemples pris en gestion documentaire : Edibase, Seconde). Pour Tanglais (ou 
un fran^ais tronque dans ses normes), il y a par exemple Stairs (d'IBM), Basis 
(d Information Dimensions Inc.), ou Office Indexer (de Wang). 
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Quelles sent les fonctions specif iques que devrait comprendre un sysleme de gestion de 
base de donnees textuelies? 



■ emmagasiner de forts volumes de texte; 

■ favoriser Tindexation assist^e par de nombreux modeles de description du contenu, 
dont le plus simple est Tanalyse lexicom^trique; 

m favoriser le rep6rage assist^ par de nombreux modeles d'exploration du contenu: soit 
pour une requdte assez simple, soit pour mener une analyse de contenu de fa?on 
assist^e; 

■ faciliter Tacc^s local ou par reseau 4 de nombreux contenus textuels, qu'il s^agisse de 
dictionnatres gen^raux ou specialises de langue fran9aise, de banques d'information 
scientifique et technique, ou de Fensemble des documents administratifs dans un 
bureau. 



c) Applications ailleurs que sur texte 

Si Ton restreint le sens de '*texte*' ^ une certaine structure de donnees (mots, en 
phrases, en paragraphes, en sections, en document), il est possible dMdentifier d'autres 
structures de donnees que du texte qui peuvent tirer partie des logiciels d'informatique 
Hnguistique : 



• les interfaces avec menus et "^mots k fournir** pour Tinterrogation de bases de donnees 
et Tutilisation de logiciels dans les termes du langage familier & Tusager. Ce langage 
comporte un vocabulaire de Torganisation k plusieurs stratts de specification, par 
example au gouvernement: organismes centraux (ex.: Conseil du Tresor), ministere ou 
organisme particulier, directions centrales, chaque direction, chaque division... II peut 
aussi comporter le langage des operations comptables, du calcul statistique, de calculs 
dMngenieurs, de modeles economiques, au besoin de Tusager. 

■ le besoin d'une composante Hnguistique dans les futurs environnements de programma- 
tion dans la Itgne des developpements d'atelier integre de genie logicieL La 
modelisation conceptuelle des donnees et des connaissances pourrait profiter d'une 
banque de concepts definie formellement en s'attachant k la semantique lexicale de la 
langue naturelle de Tusager et au vocabulaire propre k Torganisation (relie i ses 
activites et sa **culture otganisationnelle**). 



2.2 Categories de connaissances llngulstiques 

La Hnguistique s*?st constituee en un ensemble important d'approches comme la 
lexicographie, la syntaxe, la semantique, etc., correspondant k ces niveaux de description de la 
langue et leurs phenomenes caracteristiqueb (phonemes, morphem vocables, termes, phrases...). 

Les domaines de la Hnguistique ne sont pas tous egaux. 11 y a des niveaux de description 
de la langue qui sont plus critiques que d'autrcs en fonction des applications. En effet, deux 
composantes majeures vont devoir se retrouver dans une majorite des applications d'informatique 
Hnguistique : un analyseur syntaxique et une base de donnees lexicales. Du moins peut-on 
rassembler autour de ces deux noyaux fonctionnels la plupart des connaissances utiles. Cest ainsi 
que la morphologie, la semantique et la modelisation conceptuelle seront mises en relation avec ces 
deux noyaux k titre de complements necessaires et utiles en fonction du contexte d^application. 
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2.2.1 Syntaxe 

Un analyseur syntaxique construit une representation de la structuration des phases dans 
une langue donn6e, et fournit une description linguistique 61aboree en fonction des besoins 
d indices qui seront pns en compte dans une application. L'analyseur syntaxique est le moteur 
de I analyse de texte, le partenaire obligd de la plupart des autres niveaux de description. 

Par exemple, I'assistance en traitement de texte requiert un analyseur syntaxique pour 
attemdre une qualite sup^rieure de correction orthographique et pour permettre la correction des 
erreurs d'accord ainsi que le releve des faiblesses de style. 



2.2.2 Lexique 

Un complement essentiel d'un analyseur syntaxique est une base de donn^es lexicales, 
contenant des renseignements linguistiques et encyclopediques couvrani k la fois ce qu'on retrouve 
dans les dictionnaires generaux de langue et dans les ouvrages ou banques de donn6es terminologi- 
ques ^ propos de divers domaines sp6cialisds des sciences et des techniques, ou d'institutions. 

Les informations contenues dans le lexique sont diverses : morphologie, categories 
grammaticales, etc.; afin que les definitions soient utilisables ^ar le moteur d'analyse, une forme 
systematique est requise, comme des reseaux semantiques, de^ graphes conceptuels (Sowa, 1984) 
ou d'autres variantes de modeles pourvu qu'ils soient traitables par les automates qui font partie 
de Tanaiyseur. 

En 1988, les moteurs d'analyse sont beaucoup plus avances que le travail de description 
semantique -:ans les bases de donnees lexicales. Cest le plus difficile, mais aussi le plus critique 
pour des programmes d'applications vraiment intdressantes parce que capables, en contexte, d'un 
traitement conceptuel. 

Ce del i de la description semantique, particulierement au niveau du lexique general de la 
langue, consiste k rendre explicite les grands modules cognitits et semantiques qui structurent le 
vocabulaire d'une langue naturelle. Pour Ballmer (1984) par exemple, les structures semantiques 
du vocabulaire sont reliees ^ des structures cognitives permettant de gen6rer des modeles 
devenements, d'entites, de relations, de contextes, etc. Divers auteurs pensent que certains 
domaines de connai' nances comme le temps, Tespace, la causalite se prfitent bien ^ une systemati- 
sation. On voit de mieux en mieux le besoin de vastes bases de donnees lexicales comprenant 
notamment une semantique ouverte mais contrdiee. On parlera de plus en plus de logique 
naturelle et de ses correspondances linguistiques. 



2.3 PrevisloDs sur revolution du marche 

II est vrai que les produits en langue fran^aise accusent un certain retard sur Tanglais: une 
cause importante provient de normes inad6quates dans les materiels et systemes d'exploitation 
informatiques, actuellement en bonne voie de resolution sous Taction d*organismes internationaux 
de normalisation. Un autre probleme, mais moins pres d'une solution, est celui de la quasi- 
inexistence d'un marche francophone international informatique. Ou s'il y a un tel marche, le 
Quebec y est peu present. Divers facteurs historiques, lies au materiel notamment, expliquent 
cette situation, mais A I'heure des normes et de la micro- informatique, il y a beaucoup de ra ms 
de prevoir une intensification des courants d'echanges entre francophones. 



Scenario dc dcveloppcment des industries de la langue 



265 



Quand on dit "industries de la langue**, on peut penser qu'en effet des descriptions propies 
4 chaque langue naturelle constitueront Tepine dorsale dans ce march^. Cest vrai, mais 
il y a deux forces economiques qui lui seront adjacentes: parfois compl^mentaires parfois en 
concurrence: 



■ une categorie de logiciels sp^cicMses dans diverses taches qui ont ete modeltsees 
clairement et ou Tinterface est semi-independante et peut 6tre adaptee ^ plusieurs 
langues selon la demande; cela sera surtout pratique pour des taches aisement 
standardisees et oii le vocabulaire n'est pas trop immense ni trop finement nuance; 
Pimportance relative d'universaux semantiques sera determinante pour ce potentiel; ces 
logiciels seront evidemment diffuses a grande ^chelle; 

• une autre categorie de besoins ne peut pas faire I'objet d*une commercialisation 
6tendue : les besoins propres ^ une equipe de travail, ^ une organisation, d un groupe 
culturel ou ^ un groupe professionnel qui est de decrire, uniformiser, utiliser 
couramment un vocabulaire particulier qui concerne les individus qui composent 
Torganisation, le groupe, etc. 



Globalement, on peut penser que la concurrence sera vive entre des produits comprenant 
des capacites nombreuses dans des assemblages varies et difficiles k comparer, L'evaluation de la 
qualite des produits risque d'etre un sujet controverse en raison de la complexite des fonctions en 
cause. 



3. ELEMENTS DE STRATfeCIE 

3 J Vers un atelier de g^nEe linguistique et cogsiitaf 

Le recours aux connaissances linguistiques integrees aux logiciels de bureau devrait 
connaitre une croissance ph^nomenale au cours des annees 1990. Le potentiel <**upplications, tout 
ce qui s'ecrit, textes ou formulaires, tout ecrit qui doit dtre analyse, est en etiet tres vaste. On 
peut s'attendre a ce que d'ici cinq ans les descriptions semantiques de la langue fran?aise dans les 
formats et sur les objets requis en general aien: atteint la masse critique pour rendre possibles de 
nouveaux paliers d'utilisation. 

LMnterfit d'un atelier de genie linguistique et cognitif tire son origine de la forte synergie 
qui peut dtre escomptee de la combinaison contrdlee des logiciels d'analyse linguistique et de 
modelisation conceptuelle (avec inference). En particulier, le benefice d*une semantique lexicale 
pour la representation de Texpertise est d*en faciliter la structuration conceptuelle et sa 
communication pour ceux qui developpent et avec ceux qui utilisent une expertise. Les 
connaissances peuvent ainsi etre structurees de fa^on familtere, le systeme 6tant alors capable de 
reprendre A son compte une partie suffisante des acquis de la langue naturelle (lexique, syntaxe, 
semantique generale) et des langages specialises. Les domaines administratifs et scientifiques 
apparaissent particulierement prometteurs en raison du fait que ces langages ne sont que 
semi-ouverts et done plus facilement formalisables. 

Le but est de faciliter la conception, le developpement et Pentretien de sysiemes 
operationnels grdce ^ une gamme etendue d'outils logiciels comprenant notamment des lexiques, 
thesaurus, dictionnaires conceptuels generaux et specialises, et jouant un rdle important dans Taide 
^ la conception et au maintien de la coherence dans les connaissances vehiculees au sein de 
Torganisation. 
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Dans la mesure oii ces conceptualisations peuvent 6tre exprim^es dans la lansue naturelle 
l.Tl?*^'; ^"""P' "*' formation sur Toutil logiciel est r^duit, I'aisance de la coSnicaUon e ^ 

par' oldl'n: eHan^ 1 Vuo.S^JT"^ repVesentationTtl^iL'b'eTrouraZem' 
par oramateur dans le quoiidien des organisations. 1 y a des mises en commun imnnrwnt.. „„i 
requierent une normalisation des vocabulaires utilises afin de r^utmser deTTe" tions de ta^^^^^ 
.Ts^s" ,f,;t''„Cer!;ndr„''"'''' 1? gagnameT^tntestlsstmem da^n^ 

!mU?tanTes%^To?rsT;ar4Ta,r" ' P™8--en,en, plus 

K ^- iJ"^ m^thodologie de daveloppement de fystdme expert aurait done int^rdt a exoHciter le 
^o.n d'mtervent.on sur le plan terminologique et i chercher des elLents de methyl et des 
-J^c^f- ^'J"^^^'^^'!^ J^^alyse lexicoiTietrique et de la terminologie auT acUvite de 
r„,^mhit ^^'^^^'^^^^ces. La maitrise du r^el presuppose la connaissance et la ma rise Vun 

ensemble de termes pour Tapprehender et le manipuler (Rey). 

Aux activites actuelles en terminologie. il est important d'ajouter des traviux de 
d^veloppement en s6mantique pour des parties du lexiq.ie g^n^ral de la langue francaTse^ 
ZT. 7;;"'^'"' ^"'"^^^ ^'^^"^^^ compldmentaritl avec des deviUpemLts Sf bLs d^^^ 
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3.2 PosltiosiQer la langue fraofaise 

.^nc H^*"^ ^"^"^ franfaise est aussi une "technologie de I'information". Du moins faut-il la 
consid^rer dans cette perspective quant on parle de son industrialisation. 

-1 ^description de la langue franfaise est un objet naturel de cooperation en recherche et 
developpement pour la collectivity francophone mondiale. Cette cooperation es^morcVe surtou 
en term.nolog.e actuellement, et elle y est structuree de fajon modele tant au niveau de la 
formation que de m rr^ethodologie , ainsi que par I'^change des r^sultats v ia derpubSions et 

Se"LX d'ut"t't-on^^^"''''"'''. "^"^'^"^ ^"^"'^^ francophone a etd'l'Son du 
fndTsS de la langue prometteuse dans le domaine plus etendu des 

Mais il faut hater le pas car la langue anglaise s'insinue dans de multiples lansae*^ de 
spec.al.te v,a les logiciels. L'evolution de certains de ces logiciels promet d^trrd\ r^rapllit' 

de"1r lanou. 9^''' ^^°P ^^"^^"^ d' traductions qui trahfss n L g^n 

^r^mmi?- !Sf * ^^^^ pr.v.legies de representation etant donnees sa s ruaure 

grammat.cale et sa structure lexico-semantique). Le domaine de la geomatia.,.. serai un cas 
mteressant a etudier sous cet angle dans les annees 4 venir au Quebec. 

commurfrln.ThnnfL"°f' T'f propositions visant ^ favoriser une mise en 

Ln^r exkt«n?f i \»nguist.que. deja constitues, que Ton pense aux dictionnaJrer de 

angue ex.stants, au Tresor de la langue franfaise, aux lexiques grammaticaux du LAD' A 

L^n?'7'J''/'°:'y"4?J.'^"' developpe conjointement t\ Par?s (SLID-USH) ' et 

Montreal (Centre d'ATO), k la Banque de terminologie du Quebec. 

Tel que dej4 note, le besoin le plus evident k Theure actuelle est une activite de 

dt^inT^T'" n-^'"!,"'''^"' ^.^'^ ^^""^^^ ^e^'^^'^^' ^^"^ particulierement les que q.es 
f rl n. k"''" P'"' " de donner une plate-forme aux prod c^ 

rian. fe f?.^n.T!f "^V' Pr'^et de mieux realiser des logiciels et programmes d'application oii 
la langue frangaise n'est pas desavantagee par rapport a la langue anglaise. 
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La cooperation francophone devrait permettre d^initier des actions sur le niveau general 
de la langue frangaise en priority. Cest urgent dans la course economique inter-cuUurelle de 
favoriser une mise en commun au niveau de la recherche ou au niveau de la commercialisation. 
L'enjeu est de fournir une base linguistique et conceptuelle riche pour la mod^lisation de 
rinformaiion et des connatssances en frangais. 

De facon plus g^n^rale, il faut organiser, outiller et financer Tanalyse des besoins et le 
developpement d'outils au moyen de projets pilotes r^pondant aux besoins de la situation. Avant, 
pendant, et aprfes ces projets pilotes, il faut veiller ^ la formation des personnes et les habiliter 
d utiliser les nouveaux outils linguistiques et cognitifs. 



CONCLUSION 

Les "travailleurs du texte'' sont loin de $e limiter aux traducteurs et terminologues, mats 
constituent probablement plus des deux cinqui^mes de la main-d'oeuvre totale au Quebec par 
exemple. La tftche de description et mod^lisation des connaissances linguistiques est gigantesque 
selon une perception commune. Une mise en commun et une cooperation active au niveau 
francophone est encourag^e pour constituer une plate-forme '*prd-comp6tittve'* 6levee qui donne 
des atouts dans la course de vitesse avec les produits en langue anglaise. Cette plate-forme 
fournirait une base linguistique et conceptuelle riche en up sens prcpice ^ une augmentation de 
productivity d'une grande importance 6conomique. . et culturelle! 
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r^$is?ri?ucreREs rr liS mesures de uv prosodie 



hes recherche" sur la prosodie du frangais s'orientent Ifntement vers les applications aux 
industries de la langue, synthase et reconnaissance. Voiia un vaste domaine ou Ton peut accumuler 
des monceaux de donnees numeriques sur les frequences du Fo dans Tintonation, sur les durees 
segmentales et suprasegmentales et sur Pintensite r^partie dans la phrase. 



Mais il y a loin des donnees aux regies. L'intonation est liee d la syntaxe et ^ U semantique 
et est ancrde aux points d'accentuation; les accents eux-m6mes sont de diverses natures et prennent 
des formes acoustiques qui varient selon les differentes fonctions linguistiques. La -ystematique 
des duties est i son tour cuno'tionnee par la nature des constituants syllabiques, par les contraintes 
li6es a la phonologie et a la morphologie, au debit, a Pintensite, ^ la place de la syllabe dans 
Tenoned, au poids semantique des mots, etc. 



Des donnees acoustiques qui ne seraient pas motivees ou expliquees par Tinfluence des 
diverses structures prosodiques qai les sous-tendent ne nous apprendraient ^ peu pres rien sur la 
nature de la parole et ne sauraient atre systematisees dans les regies utilisables dans la synthese. 



On peut eludier separement chacun des systemes intonatif, accentuel et rythmique ou 
temporel, un peu abstraitement comme en laboratoire, au moyen de phrases experimentales; on 
est bien oblige de :e faire, on ne peut cependant pas perdre dc vue que, dans la parole reelle, 
toute mesure de frequence, de duree relative ou d'intensite est le resultat pondere de toutes les 
commandes u la fois. D'oii la necessite de modeles separes pour chacun des systemes qui composent 
la prosodie de la langue; necessite aussi de Tanalyse de Pinfluence de chacun d'eux sur les valerrs 
acoustiques mesurees ^ la surface phonetique de Tenonce 

Les recherches sur la prosodie ont longtemps ete le fait des laboratoires de phonetique qui 
disposaient d'instruments de mesure, en un temps ou la linguistique et la phonetique n'avaient 
pas des approches concertantes. II n*empdche que beaucoup de travaux de cette epoque dans le 
domaine fran^ais restent encore fes instructifs, Coustenoble (1934), Faure (1963, 1967, 1968) 
Delattre (1938, 1968), Fonagy (1978, 1979, 1983), RIgault (1961, 1970), Leon (1969, 1979)! 
Martin, (1977), Boudreault (1968), Beauchernin (1970), Rossi (1972 a, b, 1981), Emerard, (1977 ), 
Vaissiere(l983), Carton (1976), DJ Christo (1975, 1981, 1982 a, b) Lavoie (1965), Malmberg ( 196 1 , 
1966), Mettas (1964), Holder (1968), Warren (1981) Santerre (1981). Le renouveau dans les 
recherches prosodiques nous est surtout venu des langues germaniques, de Tamericain en 
particulier Liberman (1977, 1979, 1983), Selkirk (1972. 1980), Pierrehumbert (1982), Carding 
(1984), Thorsen (1981), Carlson, ( 1973), Cutler ( 1982), Ladd, (1980), Verluyten (1982) est influence 
par Shane (1968), Dell Pest davantage par Liberman et Prince (1977). Rossi (1985 et 1987) est plus 
personnel et inventif. 



*Cette recherche net subventionn^^ par !e C R S H C 
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np «A ff;!f ^! prosodie en vue de leur exploitation dans les industries de la lan^ue 

f^HrTnrTJ^'^' "k" ^»^^'«,<^o»^boration entre les sp^cialistes de la linguistique gSe 
D?Lnf n;rri?n i^^^^^^ Phonologie), et ceux de la phon^tique exp^rimentale et de rinformatique. 
D une part, a prosodie ne peut etre ^tudi6e sans Panalyse acoustique et les tests psvchoacousti- 

H.""'^'"' aboratoires de phon^tique pourCus des mdlleuJs outils d'an'fy^^^^^ 
dlhnj! H% ^^^^"P»»o«s 1« plus fines pourraient rester lettres et chiffres morts en 

df savofr sciemifique ^" "^"^ syst^matiques en termes 

monde-^nP .nTn« P"'"^";«"| ."^^^e^ielles qui pourraient faire parler un ordinateur "comme du 
monde ne sont pas le but ultime de ces recherches; la connaissance de Phomrae a travers ces 
r nrH'?J-cn' ^"e^sont les langues quMI fabrique comme une araign^e fabrique 

techniques est-^-dire au besom, passe bien avant les prouesses les plus avancees de ces 

* ^® ^^T""^- a"jo"^d'hui que ce sont les soci6t6s elles-mimes qui poussent les scientifioues 

r.vfdp'n^^^^Jf '^'J^ derniers commencent ^ ™d?e1 

ItZ l v^ ^ ^ " langues sont des objets de connaissance infiniment plus complexes qu'on peut 
^nv'n. recherches fondamentales soient faites par ceux qui 

^SbL.'n^^.fc'^'JKJ" ' "^"^ ^^^^"^ formalis^es en termes numTiqSe 

exploitables dans la synthase et la reconnaissance de la parole. 

Ccfte communication comporte deux parties. Dans un premier point, je voudrais montrer 
que les mesurns ne peuvent etre separ6es des structures qui les sous-tendent, de mfime que les 
?fc eux-memes ne sont pas ind^pendants les uns des autres et que les modeles 

'i^^ r Jf.^^^^^^^ f'^^^'l ^^'l ^ ^'^^^^"^^ experimentatioMs. Dans un second 

ct?^f ' ^ '^"^^ un d6but de recherche sur les durees relatives dans les ri.nes pour illustrer la 
systdmatique qui semble sV exercer a travers le systeme phonologique, les contrainte^: morphologi- 



1. STRUCTURES ET MESURES. 

Dans les industries de la langue, ce ne sont pas les moyen' ormatiques qui manquent 
^ hI ? Imguistiques et phone Jques. Ce que nous s. jns des langues, du langage 

^icl. Jni^nc ! theorique, d;une part, et d'autre part, les precisions acoustiqies que nous 

accumulons sur la parole et la variation Ln^^uistique ne sont pas tou jours int6gr6es dans des lois 
pr^dfre^""^'*^^* °" tendances generates qui pourraient les expliquer et permettraient de les 

C'est en particulier le cas des etudes en prosodie. D'un cdt6, on developpe des theories 
sur 1 accentuation et Fintonation, sans souci de les mettre a r^preuve'de la conSa^n ave^^ 
parole r^elle; et de I autre cdt6, on accumule les mesures sur la parole reelle, on fait des moyennes 
sur des ensembles souvent disparates, de sorte qu'')n se trouve en pr^ eAce de gendralit^s Sui 
?e"irSe^elTe-m.-me''^'"^^^ locuteurs que sur !a production ou la perception 

•„ • !zV^^' excellent dans les mesures doivent savoir que les donn6es experimentales ne sont 
jamais th6onquement neutres, c'est-&-dire qu'elles supposent n6cessairement un cadre de r6f6rence 
qui devrait les rendre mstructives D'un autre cot6, ceux qui pr6f6rent construire des modeles 
prosod ques devraient reconnaHre Timportance des tests expdrimentaux pour eprouver ces modules 
car, rue faire en sciences de modules et de theories qu'on ne peut inf irmer, valider, ou ameliorer-^ 
E qt^ faire des donnees experimentales qu'on ne peut pas interpreter dans un ensemole theorique 
qui ieur donne une valeur de connaissances systematiques? 
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Cest ce lien entre la th^orie et la pratique que propose Liberman (1983) aux organismes 
de recherches, qui commencent A comprendre que leurs puissants algorithmes de traitement du 
signal ne nous r^veleront pas d eux seuls la nature et le fonctionnement des paramfetres acoustiques 
du !ar2age. L*intelligence artificielle nous sera d*un pi6tre recours pour aller plus loin, tant que 
rintelligence naturelle elle-meme sera prise au d6pourvu. Ce sont les connaissances fondamentales 
sur la langue et le langage qui nous manquent avant tout dans les industries de la tangue. II n'est 
pas possible que nous puissions court-circuiter cet immense programme rattache aux sciences 
humaines. M6me quand il ne s^agit que de faire dire du texte correctement €cr\x selon la syntaxe 
et la s^mantique, nous ne savons pas fournir A Tordinateur les instructions prosodiques que Toreille 
juge 61ementaires, tant leur vari6te et leur complsxite sont grande*^. 



Cest pas que nous n'ayons pas appris beaucoup de choses importantes jusqu*a maintenant 
sur les paramdtres acoustiques qui font les formes de surface de la prosodie; c'est plutdt que 
nous manquons de modeles sous-jacents qui nous permettraient de formaliser des commandes 
s6par6es pour Pintonation, Taccentuation, Tintensite, Torganisation temporelle et rythmique, 
modules qui tiendraient compte des principaux facteurs susceptibles de faire varier chaque 
paramdtre. 



L*6volution du Fo est relativement facile k suivre aux instruments, mais elle est loin d'etre 
d elle seule le ''pitch" qui, lui, fonctionne linguistiquement dans la production et la perception et 
varie selon la syntaxe, la semantique, le rythme dans Tassertion, Tordre, Tinterrogation, 
rexclamation, la focalisation (Rossi 1985), la stylistique (Fon: gy 1983) et le poids semantique des 
mots. 



L'autre structure prosodique, peut-6tre encore plus importante que Tintonation, mdme si 
elle est moins immediatement perceptible, reside dans le domaine complc ,e des commandes 
accentuelles. Nombreuses sont les espfeces d'accents, leurs fonctions, et les formes acoustiques 
qu'eUes peuvent prendre sous divers conditionnements. 



Quant ^ rintensite, plus ^troitement liee a la mecanique de la production, elle parait jouer 
un rdle plutdt stylistique; i! ne semble pas, en effet, qu'elle puisse jouer un r6le morpholog^que 
comme Tintonation et la duree li6es ^ Taccentuation (Santerre 1981). Elle pour rait pour cela titre 
analysee seulement dans la mesure de ses incidences sur Pintonation et Taccentuation. 



Les deux parametres prosodiques d'intonatiun et d'accentuation sont etroitement lies k 
Torganisation syntaxique de Tenonce et aux relations semantiques de ses constituants majeurs, 
Mais les regies accentuelles peuvent en prendre tres large dans la parole r^elle avec certains 
noeuds terminaux de T^^rbre syntaxique. Les regies d'accentuation phonologique ( fin de mot et 
de syntagme en fran^ais) peuvent facilement ceder le pas aux exigences rythmiques liees au d^bit 
et au nombre de syllabes dans les constituants. Cette organisation rythmique semble repondre A 
des lois propres, m6me au detriment de la correspondance qu*on attendrait avec les regroupements 
plutdt rigides qu'impose Tarbre syntaxique, surtout quand il n'y a pas risque d'ambiguite et que 
le contexte est riche en redondance semantique. Dell (1984) en fournit de nombreux exemples, 
mais il n'est pas ecrit dans le cif I que le quebecois se comporte comme le parisien. 



Une fois les regies d*accentuation appliquees, il reste ^ faire passer les regies d'association 
tonale; bien sftr, les differents schemes intonatifs phonologiques (ex./ B H M ou M H B etc/) 
sont ancres su* les syllabes accentuees, mais plusieurs syllabes de suite peuvent tire sous Tinfluence 
d'un mSme ton haut ou bas, ou bien une mgme syllabe peut 6tre attachee a deux tons voisins; ces 
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regies d a&sociation tonale, de mSme que les schemes intonatifs eux-mames, varient d'un dialecte 
J l/f*^';?' J"^*'" ^ P<>j"^ on sait pas. F! apparatt assez clairement que le scheme accentuel 
fait le hen entre la structure syntkAique et le profil melodique, mais il est lui-m6me tres variable 



On peut penser que 1 accentuation en queWcois pr6sente des differences importantes avec 
le fran$ais de France qui n'exploite plus comme nous le faisons les oppositions phonologiques de 
dur6e. L organisation temporelle en qu6b6cois est assujettie k un systame syllabique qui rsspecte 
les dur6es de huit voyelles longues par nature: (quatre orales / 3 0 o a / (/ 3/ de fete) et quatre 
nasales); sept voyelles braves sont allongeables et abr6geables par coarticulation conson antique- 
deux autres enfm /e et e/ ne se trouvent pas en syllabe entrav6e. II faut done s'attendre 4 ce que 
I organisation rythmique de r<Snonc6, qui p6se si lourd sur la repartition des accents dans les 
tron^ons intonatifs, imprime sa marque specifique 4 la prosodie du qu^becois. 



Quel corpus analyser? 



L examen des parametres prosodiques de surface de la parole reelle dans son contexte 
social nous donne a observer, pour chacun dei parametres k Petude, par exemple Tintonation, le 
resultat de toutes les commandes sous-jacenies qui Pont faite ce qu'eile est a tous les moments 
T^L ,Pu^' ^l^n* Pat^^^n intonatif commande par le sens, ( ex. le profif phonologique / B 
H M / (bas - haut - moyen), Tarrangement de ce profil sur les syllabes qui le portent, la naiure 
de I accent impliqu6 dans ces syllabes (accent phonologique dont la forme est conditionnee par 
la frontiere inter ou intra-syntagmatique); ce sont encore Peffet de la declinaison du Fo raison 
de la place de la syllabe par rapport & la depense pulmonaire dans le groupe de souffle, la part 
de variation du Fo accordee h Taccentuation independamment du profil melodique qui s'y 
superpose en vertu des exigences semantiques et stylistiques (insistance de diverses natures)- c'est 
enfin la part de variation mecaniquement ajout6e par une poussee facultative d'intensite, etc 
comment demfiler la part respective de toutes les causes phonologiques et mdcaniques, systemiques 
ou aieatoires, qui ont fait de ce profil intonatif ce qu*il est dans sa representation acoustique"^ Un 
large corpus fournira-t-il deux exemples presque semblables qui nous permettraient par 
comparaison de voir varier un seul paramdtre k la fois pour en observer r impact dans ia 
production et la perception? 



A mon avis, on ne peut se dispenser d'etudier A la fois un corpus choisi de parole 
spontanee et un corpus construit de phrases simples ou Ton peut examiner Timpact d'un seul 
facteur qui vane H la fois. Ceaains facteurs sont contrdlables au moment de la production, comme 
les choix de mots, la syntaxe, Torganisation semantique (theme, rheme), la place des ictus 
meiodiques, le debit, la coupe syllabique dans les morphemes k voyelles longues etymologiques 
entravees, etc. D'autres facteurs ne peuvent etre contrdles methodiquement qu'au moyen de la 
synthese aussi fideie que possible; ce sont, par exemple, les degres de variations du Fo, de 
intensite, des durees relatives dans les syllabes, le jeu des parametres acoustiques dans 
les accents, etc. 



Les mantpulations de laboratoire les plus fines et les tests qui les completent ne sauraient 
nous dispenser de retourner continuellement au corpus naturel pour reconnaitre les systematiques 
qu on pense avoir decouvertes en laboratoire. L'observation des grands corpus peut permettre des 
generahtes qui sont presque des universaux de la production de la parole et qui s'appliquent tt 
toutes les langues.( Vaissiere 1983 ). II faut connaitre ces generalites, mais ce n'est qu'un debut- 
si I on s en tenait k ces grandes lignes pour faire de la synthese ou de la reconnaissance il n'y 
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aurait pas de difference entre les langues, les dialectes, les individus, ou les sentiments; 
la parole de synthase resterait robotique comme elle Test largement aujourd*hui. La variation au 
sein des syst6matiques nous 6tonne autant que les invariants un peu trop jimplifi^s qu'on pense 
d6couvrir dans le langage. LMnvariance n'est pas ou Ton pensait; on ne pourra ta definir que 
lorsqu*on connaitra la nature et le fonctionnement du langage; on n'en n'est peut-^tre qu'aux 
balbutiements. 



2. EXEMPLE DE SYSTfeMATIQUE DANS LES DUR^ES RELATIVES AU SEIN DE 
LA RIME. 



L^organisation temporelle se retrouve k plusieurs niveaux de la production de parole: duree 
accentuelle, dur^e phon6matique^ dur6e li^e au debits ^ la rythmique, dur6e segmentale propre, 
duree conditionn^e par Tintensite et par la composition syllabiquc. Rien n^est laiss6 au hasard. II 
importe de d6couvrir les syst^matiques d^ordre phonologique ou m^anique ou articulatoire pour 
Tavancement des recherches fondamentales et ta synthase et la reconnaissance de la parole 
naturelle. 

Tai cherch6 i decouvrir rorganisation syst^matique des durdes relatives dans les rimes de 
quatre locuteurs, deux Parisiens, un homme et une femme, et deux Quebecois, de mfime un 
homme et une femme. Le corpus est construit avec toutes les voyelles entra^*6es par des consonnes 
obstruantes. Je ne pr6sente ici comme illustration breve que les conclusions tirees de 
la production du locuteur quebecois. A propos des trois autres locuteurs, je peux seulement dire 
pour rinstant que la syst^matique existe, mais qu'elle est toujours un peu diffdrente d'un locuteur 
^ Tautre, tout en respectant globalement les grandes commandes du syst^me. La systematique est 
differente entre le parisien et le qu^b^cois. tr^s certainement k cause des deux syst^^mes 
phonologiques; en parisien, il xCy a plus que 12 voyelles phonologiques, tandis que le quebecois 
a conserve intactes les 17 voyelles h6ritees des fond'^teurs, avec les oppositions de duree et de 
timbre. (Santerre 1974, 1979, 1981 ). 



Les phrases du corpus ont 6te prononc6es deux ou trois fois par le m6me locuteur et c*esf 
la moyenne que je presente ici. Je pense quMl importe de decouvrir ta systematique de plusieurs 
locuteurs separ^s et de ne pas faire de moyennes entre ces locuteurs, car dans Toptique de ces 
recherches, il vaut mieux preserver la systematique de chaque locuteur, 6tant bien 
entendu que Tordinateur ne devra jamais parler comme une moyenne. Je trouve plus interessant 
de comparer la production des locuteurs que de la ramener ^ une moyenne et ^ un ecart-type. Les 
systematiques au niveau sup^rieur de la langue sont trop abstraites- Chaque locuteur exploite ^ sa 
fajon la systematique de sa langue ^ travers son dialecte et son idiolecte, et it n*y a vraiment que 
cela qui explique sa production sonore. Le corpus comprend quelque 250 phrases. 



J*ai groups les voyelles quebecoises en quatre categories: les voyelles hautes / i, y, u /, les 
quatre voyelles breves par nature / 3, a, o, (b/, les quatre voyelles longues par nature, oppos6es 
par le timbre et la dur6e aux quatre breves pr^cidentes, comme dans faite et f^e. patte et p&te. 
sotte et saute ^ Jeune et jeiine; enfin les quatre nasales. ' :i deux voyelles restantes /e et oe/ ne se 
rencontrent pas en syllabe entrav6e. Les conson? .s obstruantes font aussi quatre groupes 
homogdnes; p t k abregeantes; b d g neutres; f s J neutres; v z ^ allongeantes. On trouve done 
plusieurs types de rimes (noyau + coda), puisque les voyelles breves peuvent dtre abreg^es ou 
allong^es, ou Iaiss6es intactes; de mSme, les voyelles longues, orates et nasales, sont peu abr6gees 
ou peu altong^es, ou laissees intactes. Je n'ai pas examine Tinfluence de la premiere consonne dans 
la syllabe (CVC); Di Christo dit qu'elle n'esi pas tres grande. 
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ABLEAU I: 



Moyennes tt hearts - types de la dur^e dfs voyelles dans la rime 
et pourcentage de reduction selon Taccent 



Accent terminaJ 

El. (Aimes-tu les clifij) 
(Coupe -Jui les jsaUfii) 



Accent iat^rlenr 

(Le !Dolaai£_me plait) 
(Le mot eaUfi: me plait) 













redurtion 




Moyenne (M) 


ecart - type (s) 


M 


s 




Braves 


11.3 


2.0 


7.9 


1.8 


.70 


Longues 


215 


2.1 


15.0 


1.37 


.70 


Nasales 


24.25 


3.4 


17.5 


15 


.72 



On Qbaerv* una nette distinction de durte eatre, d'un cat*, les voyelles brtves abrigAes ou non-ollonflSea 

na«a^«. abrtg^es ou allong6„, ,ont plu. longuim que le. oralw. L«. duV, moyenne. dea o;J2 
phonAtiquenwnt brtve. ou bnguw rarient presque du simple au double. '.^ eduction de dur^e des 
voyelles est la m«me sous I'effet du dSplacement de I'accent, solt 7196 environ. 



TABLEAU 2: 



i>ur6cs moyennes des consonnes en position de coda 
apr^s les dlff^rentes voyelles 



< y u 



e a o X 



3 a O ;i 



ptk 


bdg 






18.56 


11.95 


2312 


9.3 


17.0 


11.84 


21.35 


106 


16.83 


987 


18 70 


108 


13.12 


895 


17.62 


98 



quelle* que sclent les voyelles qui lee pr*cMent, les constrictives sourdes sont les consonnes les plus 
longues, et les constrictives sonor^s sont les plus courtee. Les occlusions sourdes sont aussi toujoure 
plus longues que les sonores. A I'int^rieur de la rime, plus la coda est longue, plus le noyau est court- 
cela se v*nfie avec ptk, bdg et ta] ; les consonnes allongsantes 6chappent & cette r*gle parce qu'elles 
aliongent toutes lee voyelles qu'elles entravent. 
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TABLEAU 3: 



Dur^es moyennes des consonnes en coda apr^s les voyelles braves ou longues 
et leur reduction selon le type d^occent. 

VoyeUct brdves Voyellet longues 





Acc. termiaal 


Acc. interieur 


R 


Acc. term. 


Acc. int. 


R 


ptk 


17.78 


13.64 


.76 


15.0 


1155 


.77 


bdg 


11.89 


70 


59 


9.41 


7.75 


.82 


fsj 


22.23 


19.79 


.89 


18 16 


12,58 


.69 


VZ5 


10.0 


8.1 


.81 


10.34 


8.3 


.80 



Remarques: La reduction des consonnes selon Tajcent n'est pas reguHere comme celle des 
voyelles (tableau 1). Les constrictives sourdes resistent beaucoup k la reduction 
apr^s les voyelles breves (.89), mais s'abregent davantage apr^s des voyelles longues 
par nature qu'eMes ne peuvent abr^ger. Les occlusives sourdes se reduisent a environ 
.77, ind^pendamment de la voyelle qu'elles ont le pouvoir d'abrdger. La comparaison 
des reductions ne vaut pas avec les consonnes sonores, parce qu'elles sont breves 
et ne saurnient s'abr6ger beaucoup; / bdg/ perdent 4 a 5 cs avec les voyelles braves 
et seulement 1.5 ou 2cs avec les voyelles longues, peut-etre parce qu'elles sont alors 
a la limtte de leur reduction sous Taccent; quant aux allongeantes, elles sont tou jours 
breves parce qu'elles allongent les voyelles dans la rime. Je ne suis pas prfit 4 tenter 
des explications profondes de ces mdcanismes de compensation de duree; sans doute, 
les limites des dur^es sy^abiques, longues ou breves, sont-elles a prendre en 
con^sideration. 



On le voit, d'un accent 4 I'autre, I'organisation des durees relatives du noyau et de la coda 
dans la rime semble se faire a I'int^rieur de I'espace VC et respecte, § travers la dynamique des 
coarticulations, les durees phonologiques des voyelles et la nature phon^tique des consonnes; si 
la voyelle est breve, la consonne sourde s'abrdge, s'il s'agit d'une occlusive; si la voyelle est longue, 
phonologiquement ou par jr^rticulation, les consonnes longues cedent du terrain. Amsi, aucune 
rime n'est vraiment tres tv-ite, et les plus longues ne peuvent P^tre trop. On peut distinguer 
plusieurs classes de rimes faciles ^ reconnaitre automatiquement au moyen dei durees relatives de 
V et de C, de la duree de la rime VC, et au moyen des occlusives ou de«^ constrictives, longues 
ou breves. Une telle analyse acoustique n'a pas besoin d'etre tres fine et ne repose pas sur le trait 
fragile de la sonority. Pour la synthese par regies, on peut donner ^. I'ordinateur un grand nombre 
de configurations de rimes, et mdme tenir compte qc la difference dans une classe de consonnes, 
comme P ou K par exemple, ou dans une classe de voyelle, comme /i/ et /u/. 

Dans certaines limes, le noyau vocalique est nettement predominant en duree sur la coda; 
c'est le cas des voyelles longues ou allongees entravees par une consonne allongeante, 
(Voir colonne 2, tableau 4.) Ex. nage = 25 +14, soit 64% de noyau contre 36% de consonne; si on 
donne une maique positive pour la vocalite, cette rime a +26 de proeminence positive. A I'autre 
extreme, vache obtient -35. Au centre, rel&che est k +2.5. 
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A i'CA ^^^^^ 4 a pour hvt d'illustrer le comportement des dur6es relatives en fonction de 
diff6rents accents et de la coupe syJIabique dans les morphemes. On peut robserver qurSans 
les deux prem.6res colonnes oil la rime n'est pas divis^e par la coupe syllabkiue irdur^^^^^ 

vS^Hr^^L^^'eTr^jr"" ^^^f,"" ^ 4, les mots ^ lltude 

!?c.«a ^ T Pa^<^« qu elle se trouve sous Taccent int^rieur, mais elle ne change pas 

ImT ^ preponderance vocalique ou consonantique; la consonne nasale qui suit la c^l 

nr^ L J^^Ser mais je n'ai rien fait pour examiner cette inHuence. II est possible, d'autre part 
que la m6trique dans les groupes prononc6s ait ianuencd le poids de certaines syllabes, mfime si 
ces groupes ne se prfitaient pas d Talternance comme dans les mots a trois ou quatre syllabes 



TABLEAU 4: 

Fxemples d'organtsation des durte dans les rlmjs k noyau href ou long 
seloB la posltioo du morpheme par rapport k Taccent 



Eiempies 
d accent et de 
coup«s sylla- 
biq»es. 
Accent: * 


I 
1 


2 

Aimes-tu 
les D^tes 

1 


3 

Le mot 
ail£ me ptait 

2 


4 

Des siAlfiS 
maison 

2 


5 

De la D^te 
& tarte 

2/0 


6 

Unemiiilfe 
0 - 1 


7 

Emc^ment 

0 - 0 


patte 

pile 

chanle 


13 ♦ 2 
25* 15 
24 ♦ 11 


9 ♦ 17 
18 ♦13 
20 ♦ 14 


8 ♦ 14 

13 ♦ 11 

14 ♦ 10 


8 ♦ 12 
1 1* 10 

not 


8 * 8 

12 *7 
12 ^6 


9 - 13 
12 - 12 
12 - 12 


7 * 13 
10 ♦ 8 
13 ♦ 12 


ftH« 
f«te 
tinte 


12 ♦ 20 
23 ♦ 13 
26 * 11 


7 ♦ 17 
17 ♦ 12 
24 ♦ 9 


7 ♦ 14 
13 ♦ 12 
16 ♦ 13 


7* 15 
11 MI 
15 ♦ 10 


1*1 
13 ■» 8 
16 -^6 


8 - 12 
11-13 
15-11 


17* 1 1 


laide 
I'aide 


12 ♦ 12 
21 ♦ 9 


9*11 
19 * 9 


8 * 8 
15 * 9 


8^6 
15 ♦ & 


11*6 
12 * 6 


7-9 
12 - 9 


8*6 


VBcbe 

relkrhe 

^tanche 


15*23 
22 ♦ 18 
26 ♦ 17 


12 ♦ 25 
20 ♦ 19 
27 ♦ 18 


13* 13 
18 ♦ 14 
!8 ♦ 13 


11 ♦ !• 

12 ♦ 10 
15*11 


1'^ ♦ 10 
i3 ♦ 12 
15 ♦ U 


10-15 
13- 15 
17 - 16 


10 

13 ♦12 
15 ♦ 13 


nage 

age 

melange 


24 ♦ 14 
27* H 
28 ♦ 11 


25 ♦ 14 
28 ♦ 10 

26 » 1 1 


14 ♦ 8 

15 ♦ 7 
15 ♦ 9 


13 ♦ 9 

14 + 10 

15 ♦ 9 


11*7 
14*7 
14 ♦ 6 


14 - 10 
16 - 7 
17-7 


16 ♦ 9 

17 ♦ 10 



f AX ? colonne 5, la rime du morpheme est divisee par la coupe syllabique 

I dia pA ta tArt ); mais, du moins quand le noyau est une longue par nature, la cohesion 
morphologique semble empScher cette coupe syllabique dans la prononciation, de sorte que 
I entrave peut rester mtacte en qu6becois. 

Par contre, dans la colonne 6, le morpheme est vraiment divise par la coupe syllabique 
de sorte que la yoyelle se trouve en position penultiemc et la consonne, sous I'accent final. Dans 
ce cas, les voyelles longues pourraient dtre abreg6es par rapport aux cas ou elles sont sous Paccent 
2, mais ce nest pas ce qu'on observe; la p6nultieme. mdme si elle ne porte pas toutes les 
caracteristiques de Taccentuation, garde une duree qui aide a faire sentir le morphfeme. ^ns la 
colonne 7, le morpheme tout entier tombe en position penultiime. Cest le peu de difference entre 
es colonnes 5, 6 et 7 qui roe porte k croire que les morphemes ^ noyau long par nature ne se 
laissent pas vraiment diviser par la coupe syllabique et preservent une duree vocalique qui les 
demarque nettement des noyaux brefs, mSme en dehors de Taccent. Je ne trouve pas une telle 
tendance chez les locuteurs fran^ais 
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Ill 



Cette ^tude ne constitue vraiment qu'une premifere approche. Tout reste ^ chercher dans 
ce domaine, mais on peut d6jd entrevoir que !a phonoiogie du fran^ais qucb^cois devra dtre 
respect^e dans toutes ses implications et qu'elle va peser lourd sur la rythmique, raccentuation 
et IMntonation, done sur toutes les composantes de la prosodie qu'ii nous reste & ddfinir. 

En conclusion, je ne puis que souhaiter la formation d*equipes de concepteurs de modeles 
th6oriques et de phoneticiens second^s par des informaticiens pour travailler utilement ensemble 
dans les industries de U langue, Cette collaboration ne rendra notre demarche que plus scientifique 
et plus prometteuse. 11 faudi^it peut-6tre aussi avertir la soci6t6 et les pouvoirs publics que 
Tentreprise durera des d6cennies» et que personne ne fera ^ notre place rindustrialisation de notre 
langue. Tout progrds dans les connaissances fondamentales de la langue et dans son utilisation dans 
la soci6t6 est de Tordre des exposants en math^matique; la recherche scientifique dans ce domaine 
pourrait 6tre subventionn6e comme la defense du territoire. 
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LUnformatisation du traiiement de la langue esi fondee sur des hypotheses 
simplificQtrk es quant a la nature de Vaetivit^ linguistique humaine. Nous soutenons 
que Vinnovation et I improvisation inh^rentes a cette activite sont incompatibles avec 
Vatteinte a court et a moyen terme de resultats interes sants par la vote de I automatic 
sation pure. 

Les problemes de Vauiomati sation seront illustr^s d Vaide d'exerfiples tires 
des travaux de Vequipe a Laval. Les avantages d'une approche interactive seront 
mis en exergue, et certains travaux et pro jets dans ce sens seront esquisses. 



INTRODUCTION 

Les travaux dont il est question ici font partie d'un ensemble connu sous le nom de projet 
RELAI. lis se situent dans un creneau etroit 4 Tinterieur du domaine du traitement automatique 
des tangues naturelles. 

Nos travaux visent le developpement d'outils et de methodes pour la creation de bases de 
donnees textuelles; c*e$t-4-dire, des bases de donnees fondles sur des textes, dans Jesquelles le 
contenu pertinent est accessible par automatisme. La strategic mise de Pavant est celle du pre- 
traitement des elements du texte, notamment les mots, afin de preciser teur nature et leurs 
relations en vue de la determination du sens. 

Nous commen?ons par justifier Papproche adoptee, en examinant les difficultes 
fondamentales qu*opposent les langues aux approches plus generates et ambitieuses en vogue. 
Ensuite, nous discutons des rejilisations obtenues jusquMci: programmes, bases de connaissances, 
et bases de donnees textuelles. 



BASES DE DONNEES TEXTUELLES 

Pour qu*un texte soit considere comnie une base de donnees, it faut que Pon puisse en 
acceder automatiquement au contenu. Autrement dit, un texte est une base de donnees dans la 
mesure ou on peut en extraire des connatssances. Les systemes les plus rudimentaires qui 
repondent a cette definition se servent des seules formes qui sont directement reconnaissables dans 
le texte: les mots-formes. Ainsi, les systemes de documentation automatique les plus simples 
fonctionnent avec les formes des mots et Icurs combinaisons booleennes pour selectionner les 
passages en reponse ^ une requdte. Le principe de fonctionnement est semblabie a celui des 
correcteurs orthographiques dans les logiciels de traitement de texte, et ^ celui des foactions d*aide 
dans certains logiciels. De tels systemes connaissent des limites qui decoulent du fait de considerer 
le sens comme une propriete des mots. 
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LES PROBLE MES DE TYPE LEXICAL 



tr^jt-^i:? 1?'® discours, il n'est pas 6tonnant que les diff icultes de 

nfvi^n, ^ ''"^ y « difficuU^s Uees a d'autres 

probldmes de nature lexicale, nous nous penchons sur certains cas typiques, choisis pour eclairer 
la discussion subs^quente de nos logiciels. ^noi^is pour eciairer 

.Leprobleme fondamentalestccluidel'ambiguite: chaque mot-forme peut correspondre 
tn^h .hVp ^' ^'"^ '-'^'^^ surprenant lorsque Ton considere que e 

vocabula.re d une personne peul etre de Pordre d'une dizaine de milliers de mots, et qu'il doit 

6nZ.\TJn^'"' ""'"'^"^ ^5"'*^'' diff^rentes. Ainsi, un terme gen^rique comme L//fait 
double emploi pour representer dt.queue et dispositU de lecture (exemples I et 2) De m^me un 
bureau peut ^tre un meuble (exemple 4), une p.^ce (exemple 5)\ ou une institution (exTmple 6) 
Uans le cas de copte, nous avons une ambiguite entre le nom et le verbe (exemples 1 et 3). 



(1) Faire une copie du fichier sur une unite simple face 

(2) Mettre la disquette dans Punit^ B. 

(3) Lorsque Ton copie un fichier, il faut... 

(4) Pie re ^tait assis derriere son bureau. 

(5) II a quitte son bureau ^ cinq heures. 

(6) La compagnie a deux bureaux ^ Quebec. 



Les exemples pr6c6dents illustrent des cas oii les sens sont multiples, mais discrets et 
enumerable^. Encore plus difficilement traitables sont les cas ou ic sens derWe sans borie prtu 
Fn mot Dallas (exemple 7} comme synonyme de 1963, ou d'assassinaP 

En plus des m^taphores bien connues, comme carte (exemple 9) dans le sens d JoiS.T y a des 
TnW "^"^ constituent une source ntarissable d'innovations. lesquelles sont comprehensibles 
en d^pit de leur origmahte. Cest le cas pour le sens positif 6'^coeurant dans Texemple 8 



(7) Depuis Dallas, la politique am^ricaine a bien change. 

(8) J'aime Sting; c'est ecoeurant comme il est bon! 

(9) Le libre-echange constitue sa meilleure carte Electorate. 



Les ambiguites structurales font multiplier les effets des ambiguites de mot sur les 
interpretations d une phrase. Lorsque I'ambiguit^ structural peut etre assoc^ee ^ un mot dans la 
^ f""""^"^ est semblable d I'ambiguit^ des sens de mot. Le rattachement des syntagmes 

prepositionnels nous sen d'exemple. Apres le complement d'objet, le svntagme prepositionnel peut 

nrnJ^' ^"-^''^f "i,"' P'^"^^ (exemple 10), avec le verbe (exemple 11), ou avec la 

proposition entiere (exemple 12). v k vu a>cc lu 



(10) Jean a achete la serrure avec la cle. 

(11) Jean a achete la serrure avec I'argent de sa mere. 

(12) Jean a achete la serrure avec un sourire aux levres. 



Au-deU de la syntaxe de la phrase, il y a des relations de discours qui constituent une 
source 'mportanted ambiguite dans I'interpretation des texies. Le phenomene d'anaphore est typi 
que. le sens precis d un pronom doit etre dedrit par un processus complexe S partir du contexte 
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linguistique et ituationnel. Ainsi, dans Texemple 13, // fait reference a Paul et non d professvur, 
Le phenomene de deixis, par lequel un mot comme cvlui-la renvoie A un objet reel en dehors du 
discours, est analogue. 

(13) Paul a demande au professeur d voir sa copie d'examen. II voulait verifier 
sa note. 

Finalement, le probleme primordial pour le traitt nent des textes en tant que bases de 
donnees est celui de ^a reconnaissance m^me des mots ^ nme elements. Ce que nous appelons 
mots simples, delimites par des blancs et des signes de punctuation, n'est pas en cause. Mais s'il 
n'y avait que les mots simp?3s pour designer les choses, Pambiguite des sens prendrait des 
proportions astronomiques. La combinaison des mots simples en mots complexes constitue le pal- 
liatif consacr6 k cette lacune virtuelle. L'ennui pour le traitement automatique, c'est que les mots 
complexes ne sent pas reconnaissables aussi facilement que les mots simples. 

LES MOTS COMPLEXES 

Le traitement des mots complexes rencontre plusieurs embOches. D'abord, en fran9ais, les 
mots complexes ne sont pas formellement delimites, sauf exception, comme pour compte-goutics 
dans Texemple 14. De plus, il n*existe pas de releve exhaustif: les dictionnair^s gen6raux n'en 
pr^sentent qu^une petite fraction, si on admet qu'il peut y en avoir quatre ^lis plus de mots 
complexes que de mots simples diff6renis dans le lexique certains domaines. Bien entendu, un 
tel estim^ depend de la definition de la notion de mot complexe, souvent consider^ comme une 
unite dont le sens n^est pas determine par la simple composition des sens de ses mots constituants. 
En pratique, une telle definition laisse beaucoup de flou, et ne satisfait pas les terminologues, qui 
s'interessent davantage ^ la correspondance entre mot et objet de reference. Les exemples 15 et 
16 montrent des cas ou la segmentation du textes en mots depend de Pinterpretation du texte par 
un iecteur humain. II s*agit en Poccurrence de Pexpression nouvelle disquette, utilise tantdt 
(exemple 15) comme synonyme de disquette vierge, et tantdt (exemple 16) comme deictique pour 
la disquette la plus recemment utilisee. La segmentation est parfois compliquee par ta presence 
d^ambiguites structurales: faut-it isoler premier ministre ou minisire de VEducation dans I'exemple 
17? A la lumiere des problemes de ce type, nous maintenons que Tutilisation Cc textes comme 
bases des donn6es exige la reconnaissance des mots complexes. 

(14) II a paye sa dette au compte-gouttes. 

(15) Pour utiliser DISKCOPY, mettez la disquette a d'^ns le Iecteur A ei 
ia nouvelle di:;quette dans le Iecteur B. 

(16) Faites une copie de la disquette originale et > nouvolK* 
disquette. 

(17) M. Paul Gerin-Lajoie a cte le premier ministre de '/Educatio. 1u Quebec. 

L'APPORT DF BASES DE CONNAISSANCES 

Les types de probleme que nous avons evoques plus haut constituent des ^ntraves au 
traitement automatique des textes en tant que bases de connaissances. Les systemes de compre- 
hension automatique du langage naturel actuellement en developpement proposent des :lements de 
solution quMl convient de mentionner. Bien que les solutions peu^ent prendre la forme de 
programmes ou de bases de connaissances, la distinction n'est pas pertinente pour les fins de cet 
expose. II importe de considerer les connaissances qu*il faut formaliser en vue des solutions, 
plutdt que les strategies prop es aux differents logiciels. Par consequence, nous n'examinerons que 
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les apports possibles des bases de connaissances. D'ailleurs, notre interet etant situe autour du 
traitement des mots, il s'agit surtout de voir comment les types de bases de connaissances peuvent 
contnbuer au trajtement des mots. 

Nous envisageons les bases de connaissances selon la hierarchie suivante* lexical 
syntaxique, conceptuel, et reel. La hierarchie va du plus simple, au niveau des mots, au plus 
mclusit quant a la contribution au sens. Puisque les lacunes de niveau inferieur exigent un 
recours au niveau superieur, il est implicite qu'un systeme identifie ^ un niveau quelconque peut 
comprendre les niveaux inferieurs. 

Les connaissances lexicales sont typiquement consignees dans des dictionnaires automati- 
ques, et s^rvent a Tidentification des mots et leurs relations. Ainsi, un inventaire des mots 
complexes pour un domaine permet ^videmment la reconnaissance de ces mdmes ^I6ments, hormis 
les cas d ambiguite. Cette reconnaissance 6Iimine une bonne partie de I'ambiguite propre aux 
mots simples constitutifs des mots complexes. Les contraintes de voisinage contextuel permettent 
d elimmer encore d'autres ambigultds: jusqu'^ 50 pour cent dans une experience sur des textes 
traitant de geographic (Dahlgren 1988). D'autre part, Futilisation de thesaurus permet de 
iormaltser des relations entre mots, par exemple entre synonymes, et ainsi de d^passer les limites 
imposees par rorthographie conventionnelle. 

Est-il possible de reconnaitre automatiquement ies mots complexes sans recoars § une base 
de connaissances? On pourrait esp6rer qu'avec un corpus suffisamment grand, le releve des 
collocations frequentes coinciderait avec les expressions fixes. Une experience (Choueka 1988) 
montre qu'environ 10 % des collocations frequentes n'etaient pas des mots complexes. 11 faut done 
recourir ^ I intervention humame dans la capture des mots complexes pour inclusion dans des 
bases de connaissances. 

Le recours ^ I'analyse uyntaxique semble promettre la resolution des ambiguites de mot 
tout er contribuant h la representation du sens de la phrase. Typiquement, un ensemble de regies 
de type syntagmatique est applique aux suites de mots (Katz and Fodor 1963). Mais I'analyse 
syntaxique de phrases dont Pidentificption des mots comporte de multiples ambiguites resulte en 
une explosion combinatoire des strictures possibles. L*exercice permet d'eliminer une portion des 
ambiguites de mot, mais pas toutes. Deux voies de solution existent: I'interactivite avec une 
personne pendant I'analyse, ou le pre-traitement des phrases. 

Maurice Gross a demontre i'inaptitude des ensembles de regies syntagmatiques k saisir la 
complexite des relations syntaxiques, et a propose le ddveloppement d'un lexique syntaxique tres 
systematique (Gross 1976). Chaque sens de mot distinct est associe h un ensemble de restrictions 
syntaxiques. Celles-ci peuvent servir ^ la selection du sens approprie dans un texte, dans la 
mesure ou les occurrences textuelles manifestent des restrictions distinctives. La base de 
connaissances permettra de trailer celles des ambiguites qui admettent un traitement sans recours 
i la representation du sens. II s'agit d'une approche qui, lorsqu'elle sera operationnelle, exigera 
un materiel et des logiciels importants. La resolution automatique des ambiguites recalcitrantes 
exigera toujours un recours h une base de connaissances conceptuelles. 

Dans la notion de base de connaissances conceptuelles, il faut comprendre tous les svstemes 
qui formalisent les relations semantiques liees la langue plutfit qu'i la realite extra-linguistique 
Ainsi, il y a la semantique preferentielle (Wilks 1975), les dependences conceptuelles de Schank 
la semantique naive (Dahlgren 1988), les structures conceptuelles (Sowa 1984), et la semantique 
decompositionnelle de Jackendoff (Jackendoff 1983). Chacun des systemes intdgre d'une fa9on 
ou d une autre le compo">.a -yntaxiqur discute plus haut. lis vont au-deia de ce que permet un 
analyseur syntaxique, n faisant iisi^rvenir ce qui a pu etre formalise au niveau conceptuel. 

Aucun de ces sy ^sniv* n'est suffisamment general et developpe pour servir de fa^on 
pratique dans I'etat actuel des choses. Et aucun ne peut promettre d'arriver h une representation 



ERIC 



276 



Le traitement inte* xtif des documents 



2S7 



compldte du sens d*un lexte sans inclure une base de donnees comportant des connaissances 
universelles. Entre le niveau conceptuel et celui des connaissances du monde, il est difficile de 
tiacer une ligne, et pour les besoins de notre propos, il n'est pas necessaire. En fin de compte, 
pour obtenir de fa9on automatique une representation adequate d'un texte, il faut pouvoir disposer 
des mdmes connaissances auxquelles les humains font appel lorsquMIs communiquent par la parole. 
Ainsi, pour r6soudre Tambtguite du mot bureau dans Texempie 4, il faut faire intervenir des 
connaissances concept uelles et r^elles semblables i celles de la liste suivante: 



bureau, sens de meuble 

endroit pour travailler 

comporte une surface plane 

utilise par une personne en position assise 

ordre de grandeur d*un dtre humain 

bureau, sens de pidce 

endroit pour travailler 

partie d'un edifice 

peut contenir une ou pJusieurs personnes 

Pierre, sens du nom propre 

nom d*une personne 

objet anime 

pierre, sens d'objet 

objet inanime 

pierre, sens de materiel 

maticre inanimee 



Divers formalismes ont ete mis de Tavant: les "frames" (Minsky 1975), "scripts** (Schank and 
Abelson 1977), "scenes'*, etc. Aucune des approches envisagees ne permet d*esp^rer une solution 
generate ^ la representation de lelles connaissances. 



L'ALTERNATIF I>'J TRASTEMENT INTERACTIF 

Nous avons vu que Pengagement dans la voie de Tautomatisation pure nous entraine 
necessairement au-del^ du possible, Faut-il renoncer it Tutilisation de Pordinateur pour la 
manipulation de la tangue sauf dans les cas ou on peut toterer les erreurs? QueIle^ sont les 
alternatives? En ce qui concerne la reconnaissance des mots, il y a deux autres voies qui n'ont 
pas 6te mentionnees, mais qui ne suffisent pas non plus. D*une part, il est possible reduire le 
degre du probleme en travaillant ^ Tinterieur de domaines restreints. D'autre par . et de fa^on 
analogue, il est possible de faire Intervenir la notion de sujei de paragraphe dans le choix du sens. 
Par contre, il n'est pas evident de definir le domaine, ou le sujet, selon fe cas. 

Le traitement interactif constitue egalement une possibilite. L'utilisation des aides ^ la 
redpxtion et ^ la traduction en est un exemple concret. L'anatyseur syntaxique de Tomita en esi 
un autre. 

L*approche que nous preconisons est ccllc du traitement interactif, mais comme ctapc dc 
pre-traitement aux autres tidiicments. L*idee ,st d'eliminer les obstacles au traitement automa- 
tique des textes par Tentremise d'un enn:hissement selectif du texte au niveau des mots. 

Pour que cette alternative soit valable, elle doit constituer une solution concrete et 
pratique. L'intervention humuine doit etre minimisee a Taide d'outils informatiques simples S 
utiiiser. L'assistance humaine ne 6oh pas exigei d'expcrtise autre que la connaissance de la langue 



277 



288 



Michael Mepham 



et une certaine connaissance du domaine, comme c'est le cas pour des secretaires Le loRiciel doit 

W aui est int'ni?ih f '^^^^"^^"^ tratisportables dans d'auTres^yst^mes sou 'une 

torme qui est intelligible a Putilisateur, ou directement presentable selon ses besoins. 

tr«vnnip?tf ""Z' i^^^ d^veloppe plusieurs logiciels, et nous continuons d 

travailler au d^veloppement de Pensemble. Dans ce qui suit, nous faisons un survol tres sommaire 
de deux logiciels LEMMATISEUR et SYREX, afin de montrer en quD Is rfponden^^^^^^^ 
object.fs mis de I'avant. et comment ils sont utiles dans la conduite ue travaux concrets 

L'approche generate des deux logiciels est semblable. Chacun applique automatiouement 
ITZ^r^ ' • ^°""?f ^"^^^ contenues dans la base de connaissances, laissant rutilisaterreprend^ 

dans son ™; if..T ''"'"'''f^ ^" """^^ '""'''^''''^^ ^'^^^"^ occurrence ^ trai er est affichll 
dans son contexte, et accompagn6e des renseignements sur son identification effective et possible 
Les decisions prises par I'utilisateur au sujet d'un mot sont ajoutees i une base de conna^sants 
appartenant au corpus de texte ou au domaine dont celui-ci relive. Ainsi i mesure que 

it lfot?dMZ^?n?r '^'^''^r '' ^^--^o^Pu^^-ccessifs, la base de connaissan^es " toTfe 
ei la part d intervention humame diminue. 

LE LOGICIEL LEMMATISEUR 

II Dossede un^craid n!i^^J^Ji^^r^^ ^^^^ donnees textuelles. 

II possede un grand nombre de fonctions qui permettent d'^tiqueter chaque occurrence du texte 

ruSisTeu^'^TaCTt PhT'"'\T ''^'«°"f' " P^^^'^'^"^ les Lsoins do 

1 ut lisateur La base textuelle peut 6tre export^e sous la forme de base enrichie. sous la forme 

de texte ordinaire, ou encore sous la forme d'index ou de concordance des mots anarysis. 

i-«„c-^ fonctionnement d6taille du logiciel est bien documente (Mepham et Barube 1987) 

Drobl^mrH/ "It'" d'appl cation auquel il peut se prater, en suivant Penum "ration des 

problemes de traitement evoques plus haut. 

^r^nHariJ^A^l-^^^^-^ "^^T f^^^ pcut porter sur sa categorisation, sur le choix de lemme (forme 

ous fe. LV Zl J'l" ^^"^ PO"^ ^^^^ lemme.^ Dans 

tous les cas, es ambiguites se traitent principalement en mode interactif. On parcourt la base 

dentf Lnnn n"''"*'"'.?" ' '^''^"^ occurrence de la forme proposee, afin de selectionner la bon^e 
Identification parmi celles qui existent deja, ou d'en assigner une nouvelle. Ou bien, on parcourt 
tJtfLlI I ''l"'''*,^"* sur chaque occurrence d€jd. marqu6e comme ambigug lors d'une phase de 
Sfi?.-f ^".^.^'"^V'*"^- " ^^"^ bien noter que le syst^me ne fait pas la capture automatique des 
ambiguites; i ne fait que marquer dans la base textuelle celles qui sont d^ja consignees dans la 

Srr.tf.T''''"'?-, ''^f desambigulsation dev.ait fitre reduh ITntuellement 

par I ajout d*un module de regies contextueiles. 

Ipur tr.!;?r«^n'. dc metaphore et de derive de denotation ne different pas de Pambiguite quant ti 
leur traitemen . ?! suffit que Putilisateur sache comment distinguer les sens, les lemmes, et les 
categories qu il veut assigner. Ainsi, le logiciel permet de traiter des corpus litteraires, histori- 
que? philosophiques ou autres selon les iermes d'analyse propres h son domaine. 

iVv.n^n^Hr'p'^f^l^'^"'^'?""^ structurale se prdtent au mfime traitement. Nous avons choisi 
1 exemple de I attachement des syntagmes pr6positionnels. Ou bien les propositions que I'on veut 
analyser sont marquees dans la base textuelle pendant une phase de traitement automatique ou 
bien on choisit nommement chaque proposition que Ton veut traiter comme ambigu6. EnsJite 
en mode mteractif, on assigne 4 chaque occurrence un > ode distinctif de son regime d'incidence' 
selon qu'.l est attache au nom, au predicat ou k la proposition dans le contexte aTfiche 
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Les cas d*anaphore et de detxis ne different pas des prepositions quant k leur traitement. 
Ainsi^ Ics pronoms se vo5ent attribuer une precision quant t leur referent Par contre, 
les relations de discours ne sont pas toujours marquees dans le texte sous la forme d'un mot. 
Cest le cas pour la relation de causality entre ta deuxi6me et la premiere proposition de Texemple 
8. II est possible dMnserer un marqueur sous la forme d^un mot bidon dans la suite 
textuelle, pendant le traitement interactif, ou d*assigner un code appropri6 A un mot existant (le 
verbe, par exemple). 

Dans sa version actuelle, LEMMATISEUR ne permet pas le traitement de mots dont la 
longueur depasse 30 lettres. Cette situation sera corrigee dans la prochaine version, presentement 
en preparation, par la provision de zones d'infor mation dont la longueur est definissable par 
Tutilisateur. II sera alors possible '^e traiter des sequences de mots au mfime titre que les mots 
simples. La reconnaissance de ces sequences est assuree par un logiciel autonome, nomme SYR EX 
pour 5yst6me de reconnaissance des expressions. 

LEMMATISEUR a ti^ con^u en reponse aux besoins dn orojet d'automatisation de 
TenquSte du frangais dans la region de Quebec (Deshaies 1981), II s'a3i553ait de constituer en base 
de donn^es les 120 sous-corpus de transcriptions issues des enregistrements de langue parlee faites 
dans le cadre d'une enqu^te sociolinguiscique. L*objectif etait de rendre *e corpus utile pour des 
dtudes portant sur les elements linguistiques. A Theure actuelle, la base comprcnd d6j^ 66 sous- 
corpus, pour au-del^ d'un demi-million de mots courants. Les mots ont txk traites afin d*assigner 
des formes lemmatiques aux variantes morphologiques des noms, verbes et adjectifs, ainsi que des 
categories grammaticales. Les ambiguit^s restent k fitre traitees par chaque utilisateur de la base 
en fonction de ses besoins. Un code de reference identifie le sous-corpus d'appartenance de 
^haque occurrence textuelle, de sorte que les donnees de type social peuvent 6tre associ6es A celirs 
extraites de la banque, et des analyses par progiciel statistique appliquees k la nouvetle base ain;i 
cr66e. Par exemple, une dtude pilote a ete mende sur la distribution de pres de 100 000 
occurrences de pronoms personnels en fonction des variables d'Sge, sexe, quartier d*habitation, 
statu: socio-economique et autre des locuteurs (Deshaies 1986). 

Le d^veloppernent de LEMMATISEUR a ete influence par un autre utilisateur important: 
le projet Nag Hammadi sous la direction de Paul-Hubert Poirier de TUniversite Laval. II s'agit 
de traiter des texte? en alphabet non-^romain, et en langue copte, qui possede une morphologie de 
langue semitique. De plus, Tanalyse ne peut pas se satisfaire de la '-mite de dix zones d'etique- 
tage possible pour chaque forme textuelle, zones qui etaient prevues pour les lemmes. La solution 
adoptee est celle de Tutilisation de zones dc lemmatisation complementaire de niveau lexical, dont 
le nombre peut atteindre 20. Cette application demontre que le logiciel est suffisamment general 
pour servir dans une grande variete de contextes de travaiL 

Cette conclusion est confirmee par le grand nombre de travaux d'etudiants et etudiantes 
de deuxi^me et de troisieme cycles qui on^ util se LEMMATISEUR. Certaines des applications 
impHquent Panalyse detailtee de chaque occurrence d'une mfeme forme ^ travers le corpus. Dans 
ce cas, le concept de lemme pour 1^ forme, limite par le logiciel au nombre de 10, 
ne convient pas. Par contre, le zone de lemmatisation complementaire de type 
contextuel ,:ermet d'assigner 20 caracteres d'information a chaque occurrence, sans limite 
quant ^ la varit ,e des valeurs. 

Mentionnons une autre application en guise d'exemple de ce k quci peut servir Tassociation 
d*un dictionnaire et d*un texte k Tintcricur d*une mdme base dc donnees. Nous avons obtenu des 
indices de differents types de difficulte que presentent les mots des manuels DOS. Ces indices 
font partie d'un fichier du logiciel DBASE III, comme les fichiers de LEMMATISEUR. Nous 
pouvons alors faire un fichier dictionnaire avec les indices de difficulte et Tappliquer k d'autres 
textes semblables aux manuels DOS. De cette fafon, avec un minimum de travail pour les formes 
ambigues et les mots qui ne sont pas communs aux deux textes, on peut faire le profil de 
difficulte du nouveau texte. 
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m*.„t SYREX (systhme de reconnaissance des e'xpressions) a ete developoe exoresse 

S et^n mo^e^meractVT^^ Comme LEMMATISEUR. il fonctionne efmodVau'tom^^ 
If^ L^L t mteracti . En moue automatique le logic el effectue la segmentation d'un tPxtt^ 
en mots complexes d'apr^s le contenu du dictionnaire qui fait partie du svsteme Fn^ ^^^^^^^ 

;rfen^ r' rraTou't'de'm^ '''''T ^/^-f"-^ occur^e'ces fe" tu'eUeTd.ci^LTqt 
soni reiieiees par I ajout de mots complexes dans la base textuelle. 

ip i.oj.if ^'^^^nnement en mode interactif est extremement simple pour la personne aui utilise 
ll Zri l- ' ^f^^'^* modalites de parcours offertes celle convfent tous les m^^^ 

ene"mot-S?me etc'tnSuhe'^?,^'' '^'-^'^^ T.^i^"^' non v.rinrs/fes motrcont^^^^^^^^^^ 

f^tl A I ' 5 Ensuite, elle visionne i I'^cran chaque mot dans sa forme courante et 
entour^ des mots de contexte 6galement dans leur forme courante. Par des toucheTsimDies el^^^ 
regroupe les mots a sa guise pour obtenir de nouvelles formes courantes Elle peu reculW^o^ 
?exte elle'n. r ^^^"^""^ avoisinantes. ?^ y a une ?^ui le dans 

Une des applications les plus evidentes du logiciel se situe en lexicocranhiP i ^ inoj^ioi 
const.tu. un outil pour la capture des elements lexilaux dLs les tex es T^^^^^^ i',^,^' 
Z^^r'!!' g^n^raux ne sont pas complets, et pour combler cette lacune ^faut re ever de 
exemples d emplo, reels. Le traitement syst^matique de bases textuelles devra constlTuer une 
source preceuse de donnees sur les mots complexes pour les lexicographi 



t^rhn^i^aV^\T I'^'- ^^"-'^^ presente un int^ret analogue. Dans des domaines de pointe en 
technologie, la production terminologique distance tou jours les releves terminolociflupr Fn 
traitant les textes . mesure qu'ils sont produits. il sera possible de sullTe'de Z pr^s'l^ 

utilisation H^;«!'f^.^i^'!! T P/^'"^"^"/ ^O'"'"^ ^'"t" pedagogique. Nous prevoyons Padapter pour 
utilisation dans le cadre des travaux des etudiants en lexicologie et en terminologie. 




LES BASES TEXTUELLES COMME BASES DE CONNAISSANCES 

Les logiciels SYREX et LEMMATISEUR constiiuen: des module^; dans une constellation 
de logicels potentiels pour le traitement des bases textuelles au niveau c s mots Nouf dou^^^^^^^^ 

TeMMAT IeuR '^EnZT f ^ -^1^^^'^^" '^'^ QueTous ^rnons'^ri'^rdrd" 

i^tMMAHiiEUR. Ensuite, il mcombe d ceux qui utilisent des bases textuelles de metire a 
1 epreuve des bases selectivement enrichies comme point de depart L leurs svs^mrs Pa? 
exemple, les analyseurs syntaxiques prenant comme en. ee des textes exerpV^dfproblemes 

L'lZirZTsl^^^^^^^^^^^ ''T''': P^"^ ^^P^^^ Lln'Tx^eants'e n e pTce^ 

alte na^Wes en tahlfnt T., ^''I'^f Jj^^^^icieraient egalement d'une reduction des 

alternatives en tablant sur la reconnaissance pr^alable des termes syntagmatiques (mots complexes). 

En documentation automatique, il est clair qu'une base enrlchie en vue d*un tvne 

?;tl"nV'rT*°" ^'^^^^^^'^^ rendement, tant du poin de vue du bruit que du 

silence. E general le pre traitement, par voie de classificateurs ou descr.pteurrcause ine perte 
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de g^neralit^ du systdme, en introduisant des elements qui ne peuvent pas anticiper toutes les 
interrogations possibles. Nous croyons que si le pre traitement sert ^ marquer non pas les notions 
en tant que telles, mais plutOt les relations linguistiques par lesquelles les notions sont mediatisees, 
nous 6vitons le prob^eme du traitement arbitraire. La communication auteur/lecteur se fonde 
sur le partage d^un ^ystfeme linguistique et cognitif, et en autant que nous nous limitons k rendre 
explicites les relations n6cessaires ^ cette communication, nous ne pwuvons pas nuire. Nous 
retouchons le code 6crii, et non le message. II reste aux recherches en documentation automatique 
k determiner le rdle optimal du pre traitement et i conclure quant i Teconomie globale de son 
emploi. 



CONCLUSIONS 

Nos travaux se situent dans un creneau prometteur. Le developpement du materiel micro- 
informatique rend accessible des traitements reserves autrefois ^ des installations centrales, De 
m6me» le developpement de progiciels generaux et de langages informatiques de hairt niveau 
facilite le traitement du langage humain. Par exemple, LEMMATISEUR a ete developpe comme 
application de dBASE III. 

Nous participons au developpement du creneau sur t^ois plans. D'abord, nous contribuons 
d Telaboration de programmes pour le traitement des basef * e donnees textuelles. Eteuxiemement, 
nous alimentons des bases de connaissances lexicales par la capture d^information sur les mots, 
information qui est complementaire aux programmes dans les logictels. Et finalement, nous 
produisons des bases de donn6es textuelles enrichies qui deviennent le point de depart d^autres 
travaux. 

En guise de conclusion, les textes etant encore la forme dominante de representation des 
connaissances humaine*5, toute approche qui facilite le traitemeni des textes par ordinateur 
commande TinterSt. 
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^.4;?!?g^^m^|]itM^ m FROJET • P I U M A I* 



Le d^veloppement des recherches sociolinguistiques au depart de corpus oraux a eu comme 
effet benefique de susciter une reflexion approfondie sur les probl^mes methodologiques lies ^ la 
constitution de ces corpus, notamment en ce qui concerne leur transcription. Diverses 
contributions r^centes (BLANCHE-BENVENISTE & JEANJEAN 1986; WELKE 1986; THIBAULT 
& VINCENT 1988) soulignent que cette operation est une transformation necessitant diverses 
demarches d*analyse et d*interpretation. 

Ce codage passant par une notation forcement selective - parmi la masse des donnees 
observees, seule une partie d'entre elles >era retenue par }e(s) transcripteur(s), en fonction des 
objectifs de recherche poursuivis - se pose le probl^me du choix des conventions de transcription. 
Longtemps appr^hendees comme des probldmes techniques non pertinents pour le linguiste 
(WELKE 1986:195; BLANCHE-BENVENISTE & JEANJEAN 1986:93), les difficultes de 
transcription constituent actuellement un th^me majeur de reflexion et de discussion, 

A tel point que toute presentation d*un corpus oral s'accompagne aujourd*hui d'un expose 
detaitle non seulement des conventions de transcription, mais surtout des principes generaux qui 
ont preside d cette operation. La constitution d*un corpus ora! etant subordonn^e aux objectifs 
des chercheurs, on ne s*etonnera pas que les operations de transcription, reputees t juste titre pour 
etre les plus longues et les plus ardues, soient elles-memes gouvt»rnees par ces mfimes objectifs. 

On peut done s*attendre ^ de nombreuses convergences dans les protocoles de transcription 
regissant des corpus destines ti des exploitations similaires. Certains corpus, de constitution 
recente, le prouveiw en effet. Mais une comparaison precise fait apparaitre quelques differences 
essentiellement dues ^ ce que les responsables des corpus ont bati une logique interne valant pour 
leurs trancriptions, sans se soucier explicitement d'une perspective comparative (entre corpus), 

A rheure ou Tensemble du domaine francophone se preoccupe des varietes effectivement 
attestees et que des voix plaident mSme pour une confrontation panromane des methodes et des 
resultats des enqudtes orales,^ il nous a paru interessant de communiquer les ba es d'un protocole 
de transcription congu pour un projet Impliquant deux regions de la francophonie geugraphique- 
ment eloignees : TAcadie et la Wallonie. II s'agit du projet PLURAL (Plurilinguisme et Attitudes 
linguistiques), visant a etudier les attitudes de locuteurs se trouvant confrontes ^ des situations 



*Ce texte a b^n^Hci^ des commentsircB et des critiques de Nathalie DUBOIS, Christine FONTAINE et Marc Van 
CAMPENHOUDT. Nous les en remercions vivement 

*Citons celle de CI. BLANCHE-BENVENISTE: « Les enqu^tes oralee 8ur les langues rom&nes ont beaucoup k ^changer: 
p>our les techniques d'enqufttes, lee obje:tifB envisages, les typ«s d'analysa adoptSs Mais Burfout, elles ont ft 
dchang«r eur le contenu linguistique: it paratt d^raisonnable d'^tudter certains ph*nom*nee de morpho eyntaxe ou 
de syntaxe dans une de ces langues isol^ment, certains faits de grammaire ou de pratique discursive ne peuvent 
se comprendre que dans un ensemble rontan. » (BLANCHE-BENVENISTE I98S:392). 
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focuL"uTmtnifTrl'„'/' ""r' P^^.^*^"''^^^!"^"* ^^s formes varices d'ins^curite Unguistique que ces 
hnguistiques du fran^ais de Belgique) de rUniversite de U^lain-la N^^^^^^^^^ VALIBEL (Vanetes 
code de^trc?ip^t?f^! - -in. du 

1. PR I m BASE 

1.1 line pe? spei : e comparatJve 

La per^-iccr e d'une comparaison au depart des varietes du francais de Wallonie (c\ -^nr^.c 
lu!, tunveniio IS transcription. Et cela dans deux directions parfo s contradicloires IVime nart 

difSre'tltief'. " ««'<'"^"- P" """'i"" d'un ^ax mun, de traU 

ui" ue Jftunt-npTion"' "-O""-'-" >«rmet.e, au tninimun,. un c'de 

" " standardisation des variantes qui ferait disparaitre la maiorite ds^ 

(voir p ^ ;. ""TnTufnTi^n'r"*"' ^""^^ " P"" '« "omonyme^ 

Lai;e/ri«;;sd.rt,s^^^^^^^^^^ 

quentr.,m r.,t u„e standardisation maxin,ale ou serai'ent gommees boT nombre de vacations 

v,ri,n..'^" " conscients de ce que notre souci de « realisme » dans la transcription des 

ver r ;n;^r freTno^^^'5 ' les <.trucages orthographiques* don ce™efrll 
pervers f ,nen( «tre dinonces.' Mais notre optique est bien d'enr-gistrer des variet6s attestees 
de fran, ,s .t .on de renforcer, par des formes recons.rui.es, le myfhe d-un fran"^ s.aild^S ' 

nous Perme. en ou.re de limi.er ies pre-analyses, qu'elles soient Dhonetiaues 

nrrj-sr^j^iu'S'^^^^^^^ 

standard » est consideree comme non marquee par rapport i, la variante nonstandard i la 



!;t.?^r^ELU.^Xl*". & -pp....- ..n, OARS p«„^. a.vu., 

n impHqu. nuZi^nl Tnotrl llTTuJTJLh ''nf "^''^"^e de prononcialion ou an effet litt6raire) 

fcaocophone 31 fieST) ^« ft^n ^ <1« romans (vtir la revue Presence 

WaS?ANT (L^^ IivL Vl^^] " """" f.*"^""" "^^"""^ A MASSON. A. RE M Y ou L 

WARWANT (rnfim' « J on peut finterroger tur I'ambigufM d'une certiUne folkloriiation). 

le projet PLURAL, noue compton. dtffuwr le, corpus retranBcriti, en dehors du cercle d«. Hnguiates '^"'"""^ 

2S;, 
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condition expresse qu'elle soit attestSe dans le corpus. Dans le cas de deux variantes non standard, 
I evaluation en termes de marque tiendra compte de la situation observee dans d'autres aires de 
la francophonie. 



1.2. La iisibilit^ du texte 

Dans une perspective maximaliste, la logique de ce qui est expose en 1.1. aurait pu nous 
mener i adopter une transcription fine» c'est-^-dire une transcription phonetique. Nous ne 
reviendrons pas ici en detail sur les divers arguements qui plaident en faveur d'une transcription 
proche de Torthographe standard (voir BLANCHE-BENVENISTE & JEANJEAN 1986:1 15 sv.). 
Pour ce qui nous concerne, la ndcessite d'une exploitation informatis6e du corpus rend 
actuellement impossible le recours d PAPI; et notre volontd d'une large diffusion des textes exige 
qu'une transcription phondtique soit accompagnee d'une «traduction» en orthographe convention- 
nelle. 



Nous avons done respects, autant que faire se peut, les principes de rorthographe 
conventionnelle, que ce soit pour les mots isoles ou pour les sequences de mots. Pas question de 
jouer aux 6mules de Zazie avec des doukipudonktan\ Nous avons 6galement eu recours ^ des 
signes graphiques conventionnels deji utilises par d'autres transcripteurs (rapostrophe; les 
majuscules; le trait d'union; I'espace; la barre oblique; !a barre verticale; les parentheses, rondes 
ou angulaires). 



Nous avons suivi la tendance generale dans les transcriptions anterieures, qui est d'eviter 
de multiplier les signes, par souci de Hsibilite du texte (et d'economie). Par contre, nous avons 
dans le mdme souci de lisibilite, evite d'attribuer plusieurs fonctions au m6me sicne sraDhiaue ^ 



Au passage, signalons que les mots d'emprunt seront orthographies selon la norme en usage 
dans la langue dont ils proviennent (avec une indication sur leur prononciation effective dans 
Pidiolecte de Tinformateur). Cela vaut notamment pour les emprunts ^ Tanglais en fr.a. ou les 
emprunts au wallon (iranscrits dans ce cas en orthographe Feller) dans le fr.w.^ 



1.3. L'anaiyse de rinteraction 

Nous avons rappele plus haut que la transcription d'un corpus est fonction des utilisations 
prevues. Les phenomenes interactionnels, particulierement importants dans le cadre d'une 
recherche portant sur les attitudes, retiennent tout naturellement notre attention: tours de parole, 
chevauchements, «back channel», etc. Notre transcription tentera d'en preciser les manifestations] 
non seulement au plan linguistique, mais egalement dans le langage non verbal (gesf A 
proxemique). 



4 

Sur ce point, -out nous ^cartons de la position dc THIBAULT II VINCENT (1988 26). lesquellee attribu«nt plui-eura 
fonct 118 au mdme signe graphique. 

^Par contre, iea conventions orthoffraphiques adoptees par certains dictionnaires des parlers r^gionaux ou par les ouvrages 
de htierature rtgionale nous aemblcnt 6tre d-s pitges ^ 6vjter, les objectifs dea linguiates n'^tant pas n4ce«Bairenient 
compatibles avec ceux des lexicographes a? ateure ou des auteurs litt^raires. Ainsi, dea graphies comme genscs 
chee S. Poplack, coudon, cnsa ches THIBAULT li VINCENT, ou coudons chee BEAUCHEMIN, m*. .e at elles 
e appuient sur une notation attest^e dans un dictionnaire ou un ouvrage littiraire, nc aont pas satisfajsantes parce 
qu'etles vienr.ent brouiller un eyatfrme de transcription par ailleurs beaucoup plus systdmatique et fonctionnel. 
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««« • '"^'"^ perspective, toute une s6rie de traits caracteristiques de i'oral. generalement 

apprt..jnd6s comme des actes « manques » - repetitions, interruptions, ruptures syntaxiques 
Hesitations, etc. — seront consideres comme des «signes conversationnels»® (voir WELK E 1986-208) 
et seront Jranscnts (P- ex on notera cuh plut6t qu'une didascalie telle que 'hesitation'; ou enco:- 
outiie plutdt que cri de douleur'). 

Chaque texte sera en outre accompagne d'une fiche d'identification pr^cisant le profil 
socio-culturel des informateurs. celui de Penqugteur, ainsi que le contexte general de Tentrevue. 



1.4. Un corpus informatise 

Les dimensions du corpus reuni dans le projet PLURAL necessiteront le recours au 
traitement mformatique des donnees pour diverses exploitations: concordance, analyse de 
contenu, etc. 

A. KA 9 a"? '^facteristique, partagee par Tensemble des grands corpus recents (dans les universites 
de Montreal, Laval, Sherbrooke, Quebec, Ottawa, St Mary's k Halifax, ainsi que le corpus du 
groupe de recherche ontarien CREFO) est evidemment une source importante de consensus Tous 
ces corpus ont ete traites avec un mtme programme de concordance, I'OCP (Oxford Concordance 
Program), lequel impose certaines conventions (utilisation des parentheses pour les commentaires 
non pris en compte dans la concordance; utilisation du trait d'union pour les lexies, etc.). Sans 
voulotr assujettir notre demarche de transcription au fonctionnement d'un logiciel particulier nous 
n adopterons pas de convention qui entraverait I'utilisation de tel logiciel particulierement repandu 
aupres des chercheurs. *^ 

■ -A Le developpement de corpus oraux montre que les corpus de grande taille, pour des raisons 
evidemes (de temps et d efficacite dans le traitement informatise notamment), ne peuvent faire 
I objet d une transcription fine et, en consequence, font I'impasse sur un grand nombre de 
phenomenes phonetiques, particulierement dans le domaine suprasegmental. Nous adoptons ce 
point de vue (voir 1.2.) tout en permettant Faeces aux eniegistrements sonores pour qui voudrait 
travailler ces phenomenes sur base de micro-corpus. 



1.5. L'oralite du corpus 



Les (socio)linguistes confrontes aux pratiques de transcription des corpus oraux insistent 
sur la necessite de disiinguer ce travail de celui qu'accomplissent certains folkloristes ou meme 
cer ams ecrivains, dont les pratiques aboutissent quelquefois ^ un texte assez eloigne du support 
oral de depart. * 



6 

La forme Sraphique de. interjectione et des onomatop^es wra celle consignee dans les dictionnairea standard En 
mtrodumant cee ph6nom6ne8 dans la transcription (et non entre parenth^see, oii i!« 6chapp«raient & la 
concordance), nous refueona -& la diff*rr.nce de THIBAULT U VINCENT 1988:28- d'op^rer une distinction a priori 



entre le « back channel » et te tour de parole « veritable 



». 



7 

Cf. la distinction « texte de littirature orale-document linguistique » op«r*« par BLANCHE-BENVENISTE ii JEANJEAN 
(1986:162 bv.); voir aussi WRENN (1986:22). k propos de la tranepoeition 4 I'^crit d« dialecte oral franco- acadien 
dane le livre . ^a sagou.ne d'A. Maillet: <t II a'agit non d'une transcription -U representation f,d*le de toute 
manifeBtation de tout trait- maia d'une representation s^lectionnAe de fa<on & reenter I'effet g«n6ral de la r^aliti 
tr *.*radmre (...) La manipulation du transcodage conf*re au langage une function non plus 

rdferentielie, mate po^tique. » *^ 
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Les conventions de transcription peuvent done preserver ou au contraire gommer Toralite 
du corpus de depart. Certains des principes deji enonces ci-dessus s*inscrivent dans le souci d'une 
mise en valeur de I'oralite des corpus retranscrits: la non-standardisation des variantes ei Fatiention 
aux formes tingutstiques de Pinteraction. 

It en va de m6me pour notre choix d'une « ponctuation » substituant aux signes 
traditionnels (le point, la virgule) l*usage des barres otHques. Nous n*utilisons pas la ponctuation 
de r^crit, non seulement parce que celle-ci est inadequate pour Toral, mais parce qu*elle peut 
entretenir, bien plus que Torthographe standard p. ex,, Tillusion que Tecrit et Toral «fonctionnent» 
de la m^nie manidre et renforcer ainsi le st^r6otype d*un oral qui ne serait que Tecrit de seconde 
zone. 

On nous objectera que ce choix entrafne une difficulte de lecture pour le consultant non 
familiarise nvec cette convention. Pour nous, il convient que le « lecteur », face ^ un corpus oral 
retranscrit, ad' pte un autre decodage que celut qui prevaut pour le texte ecrit et dont la « 
ponctuation » est, de manidre e.'idente, un signal. En d'autres termes, la valorisation d'une 
linguistique attentive aux productions orales passe, selon nous, par la prise de conscience d'une 
distance tangible entre le texte ecrit et Toral transcrit. 



2. QUELQUES CONVENTIONS DE TRANSCRIPTION 
2.1 V L^apostropbe 

Nous cmployons Tapostrophe dans la logique de son utilisation conventiv)nnelle oii elle sert 
^ marquer une elision. Toutefois nous etendons cette convention a Pensemble des segments, 
vocaliques et consonantiques. 

Exemples: aurnis du venir; v\s auriez pu aitendre. 

L'apostrophe permettra, dans piusieurs cas, d'eviter les homonymes. 

Exemple 1: ^ forme a (verbe avoir) sera distinguee du a' (pr. 

personnel fern, en fr.a.) ou Papostrophe fait reference 
au L elide devant consonne. 

Exemple 2: en fr,a., le pronom LUI tnaccentue sera transcrit 7, 
avec une apostrophe qui fait reference au LU initial 
qui, s*il n*est pas atteste en fr.a.. Pert en (ry.\ (ec S 
la forme accentuee en fr.a.). Cela permettra en outre 
d'eviter Phomonymie avec le / (IL sujet devant 
consonne).^ 

L*apostrophe peut egalement contrtbuer ^ Pidentification de Punite reduite (en signalnnt 
expliciternent qu*un segment a ete elide). 



Ainsi qu'it apparatt dans cette illuBtration, nous ronsid^rone que ta forme i (pour IL, devant consonne) est la forme de 
base (et non une reduction de il). Cette poBilron est juBtifi^e par lee occurrences largement r^panduee de cette 
forme en francophonie, qui nous ta font consid^rer comme forme non marquee, k ia difference de |i fLU!) 
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Exemples: p'i~itre (pour peut-dtre)\ 'sieQre (pour asieHre). 

?x" "® notera pas dans ia transcription, par Tusage de I'apostrophe, la chute d'un (ou de 
plusieurs) segment(s) qui est pr6dictible suite k des regies g6n6rales dont il faudra etablir 
I mventaire. On songe ici particullerement aux regies de phon6tique combinatoire, telle la 
reduction des groupes consonantiques en finale de mot. 

Exemples: en fr.w., fEnitre est « lire » [foenet]; prendre 
[prat]; couple [kup], etc. 



2.2. Les majuscules 

Les majuscules sont utilisees pour marquer ractualisation d'un segment latent {k Tinterieur 
du mot ou dans sa fmale), propre k certains informateurs, mais non partag^e nar la maiorite des 
locuteurs au sein de la m6me variete. 

Exemples: le h initial aspire en certaines regions de Wallonie, 
plus particulidrement par des temoini; ages. On 
opposera done Haie et hate; quanD mdme [kat] et 
quand mime\ tandiS-que et tandis-que, etc. 

La mdme convention servira a marquer des variations entre les varietes impliquees. 

Exemple: on distinguera alphabeT (fr.a.) et alphabet (fr.w.); 

touT (indefini masculin en fr.a.) et taut (fr.w.).® 

Dans certains cas, il peut y avoir hesitation entre Futilisation de I'apostrophe et celle de 
la majuscule. Le mot MARS (nom de mois), prononc^ [mars] en fr.w. mais [ma:r] en fr a 
pourrait etre transcrit marS (fr.w.) vs mars (fr.a.) ou mars (fr.w.) vs mar (fra) La forme 
marquee 6tant dans ce cas celle attest6e en fr.a., nous choisirons la seconde solution (qui desiene 
le cas effectivement marqu^). Parall^lement, pour le mot NERF, au lieu d'opposer ner (fr w ) a 
narf (fr.a.), on distinguera nerf [n e rj (fr.w.) et narF [narf] (fr.a.). 

L'usage de la majuscule permettra egalement une nntati> n non ambiguS des e caducs 
Ceux-ci seront toujours transcrits (pour 6viter une multiplicat jn des apostrophes), mais leur 
realisation phon6tique effective sera indiquee au moyen de la n ajuscule. 

Exemple: pElouse; comp.: jE me dEmande [zoe m doemad] et 
je mE demande [zmoe dmSdJ.*" 



9 

Cette convention nous paralt pr/«rable & I'adjonction d'un ^ final (cf. la ioiw toute chet Poplack) qui introduit une 
forme Wminme arbitrajrc ev non fonctionnelle. Ou encor* prtftrable & rintroduction d'une apostrophe (cf tout' 
chee Thibault St Vmcent) qui, dans son utiiisation standard, d^signe un eon manquent (plutdt que I'actualiB^ti^ 
d un Bon latent). 

10_ 

ayatAme de notation ne postule done pas, pour etre correctement tnterprdt#, }& connaissance prdalable des regies de 
fopctionnement du e caduc dans u ; vari«« donn4e, ou I'exiBtence de « "ormcs de diction » communes aux 
locuteurs et connues par fixxx (tellee que tea postule CI. LEROY 1985.13) 
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On aura ^galement recours ^ la majuscule oii un segment se maintient dans certaines 
productions en depit de regies gen^rales pr^voyant son amuissement (voir 2.1 in fine). 

Exemple: terrihLE [t^ rirbloe] vs terrible [teriip]. 



2.3. Le trait d^unioa et Tespace 

L'utilisation de ces deux symboles est largement tributaire des conventions standard, 
lorsQue celles-ci n*entrent pas en conflit avec les contraintes de certains logicieis d'exploitation 
(tel rOCP). Ainsi les lexies que le linguiste veut analyser cumme une seule unite seront reunies 
par le trait d'union. 

Exemples: pvurquoi-que tu dis ga? est-ce-que tu viens? tout-a- 
fait: a travers, il-y-a. parce-que. vie. 

A rinverse, les unites que le linguiste veut analyser separement (p. ex. pour isoler le pr, 
sujet du verbe) seront separees par un espace. 

Exemple: J' arrive: penses - tu? n y songe pas 

L*espace servira aussi k mettre en evidence certaines epentheses consonantiques (tels les 
cas de liaison non pr^dictibles au vu de la consonne finale prevocalique). 

Exemples: un gros t arore (fr.a.) (vs les gros arhres); cent z ans\ 

On etendra cette convention aux cas de « liaison differee » (p. ex.: // est suffisamment / 
t aise) et aux epentheses consonantiques apres finale vocalique (p. ex.: qui z ont; devra t dtrc). 



lA. La barre oblique 

Nous avons choisi^^ de marquer les pauses qui interrompent le continuum sonore au 
moyen de la barre oblique (avec une simplification qui oppose la pause breve -une seule barre 
oblique- et la pause longue -deux barres obliques-). La barre oblique, dans cette utilisation, est 
immediatement precedee et suivie d'un espace typographioue. 



Le GARS a fait un choix different en n*tnd)quant aucun signe dc ponctuation. La ponctuation dtant « un syst^rrw de 
representation de^ articulations du discours qu*or» ne peut uttHser conrvctement qu'apr^s avoir ^tudi^ les 
articulations Bp^iftques dans chaque langue (HAZAEL-MASSIAUX 1985:273) » ce choix se conr >rend ais^ment: 
« mieux vaut ne pas t rancher trop tdt, en sugg^rant une analyse avant de Tavolr faite » (BLANCHE- 
BBNVENISTE k, JEANJEAN 1986:142). Four nous qui utilisons ta barre oblique pour marqueur d'une pause dans 
le continuum sonore, ce syptdme de « ponctuation » n'eat pas ie reflet d'une pr^- analyse syntaxique. 
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Cette barre oblique n est pas un simple substitut de la ponctuation traditionnelle (une 
barre obhque pour la virgule; deux barres obliques pour un point). On va done la rencontrer 
dans des contextes oii un signe de ponctuation traditionnel ne serait pa^ attendu. 

Exemple: ie parlement de Bruxelles s'esi / reuni 

Elle assume pcur I'orai des fonctions qui n'ont pas de pertinence ^ T^crit. On Pemploie 
notamment dans des cas d'actes manqu^s, tels I'interruption-reprise: la Haute- Assent/ Assembtde 
Dans ce type d'6nonc6s, le mot tronqu6 sera immMiatement suivi de la barre oblique (sans 
espace). afm de pouvoir isoler ce type d'occurrence dans la concordance. 

i« ^^ rintervention d'un locuteur, nous n'utiliserons pas le symbole // (pause 

longue). II ferait double emploi avec le retour ^ la ligne, qui indique qu'une nouvelle prise de 
parole a lieu (voir 2.5). 

Le point d'interrogation sera conserve pour marquer les 6nonces interrogatifs. 



2.5. Les parentheses 

Les utilisateurs de I'OCP cserve I'usage des parentheses (arrondies) aux notations en tous 
genres non destinies a etre reprises dans la concordance. Nous conservons cet usage oour faire 
figurer entre parentheses 

■ des precisions linguistiques (remarque sur telle prononciation idiosyncrasique); 

■ la mention d'un passage incomprehensible, transcrit (x) (une syllabe) ou (xxx) (un 
g.-oupe de syllales); 

■ la delimitation - par (a) - (z) - de portions du texte, codifiee par le transcripteur en 
fonction d'une recherche particuliere (analyse du contenu thematique; recherche sur les 
alternances de codes, etc.); 

■ une transcription plausible, non retenue par la majorite des transcripteurs auquel le 
corpus a 6t6 soumis;" 

■ des renseignements sur le contexte situationnel (explication de tel bruit a tel moment 
de I'entretien; notes sur la gestuelle du locuteur, Toccupation de I'espace, etc.) et plus 
generalement, toute precision necessaire ^ la comprehension de la sequence enreg'istree 
par quelqu'un qui n*a pas assiste personnellement d Tentretien. 

A la difference de ceux qui utilisent les parentheses angulaires pour identifier les tours de 
parole des divers locuteurs, nous indiquerons chaque nouvelle prise de parole par un retour a la 
iigne, avec designation du locuteur concerne. 

Exemple: 00223 L 3 et C as appris ce qui vient dE se p'lsser? 
(= intervention du locuteur no 3 a la ligne 223). 



12 

NouB n's^optone paa le gysW-Tie de multi-trnnecription propos* notamment par le GARS (voir BLANCHE-BENVENISTE 
Tmn AitT*'^ V traitement infortnatisA et nouB pensons en outre, comme 

iHiBAUl,! & ViNCEPrr (1988:26), que le contexte permet dans une majority de^ cae d'6lucider I'ambiguU*. 
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Les parentheses angulaires seronl utiUs6es pour designer interventions des locuteurs 
impliqu^s dans un processus de chevauchement. Voir 2.6. 



2.6. La transcription des chevauchements 

Nous avons signal^ plus haut notre volonte d'etre attentifs aux marques de I'interaction, 
Parmi celles-ci, le chevauchemenl est une des plus interessantes 4 observer. Pour en rendre 
compte de fa?on satisfaisante, nous tenterons de pr6ciser, autant que possible, les frontieres de ce 
chevauchement, lesqueltes seront indiqu^es par une barre verticale. 

Deux cas peuvent se presenter. Tantdt le chevauchement d*une intervention de L2 sur 
celle de LI n*interrompt pas ce dernier (qui garde la parole). Dans ce cas, les deux interventions 
sont pr6sent6es lin^airement, sans retour ^ la Hgne, deux barres verticales indiquant la partie de 
rintervention de Li et Tinterveution L2 qui sont concern6es par le chevauchement, des parenthe- 
ses angulaires annon?ant rintervention de L2. 

Exemple: 00042 LI i s' en va | klz fin de V annee <L2> non je crois pas 
j pour 

00043 passer V hiver en Californie 
Ce qui pourrait se representer visuellement de la maniere suivante: 



^ la fin de V ann^e | pour passer V hiver. 

non je crois pas 



LI i s* en va 
<L2> 

Tant6t le chevauchement est lui-mSme le debut d*un nouveau tour de parole, qui contraint 
le locuteur precedent k ceder la parole. Dans ce cas, nous indiquons le changement de locuteur 
par un retour 4 la ligne, les barres verticales indiquant cette fois encore les frontieies du 
chevauchement. 

Exemple: 00345 LI peut-fetre quE tu | pourrais venir 

00346 L2 i n' en est pas question j n* y songe pas 



Ce qui pourrait se visualiser de la maniere suivante: 



00345 Li peut-dtre quE tu 

00346 L2 
songe pas 



pourrais venir 

i n* en est pas question 



n' 



18 

Noua tentons ici rendre compte de la diatmction propos^e par B.-N. GRUNIG (1986) entre auto-STOP (ou le STOP 
est 4c coneenti » par le locuteur qui a la parole) ct h^t^ro-STC? {le STOP est provoqu* par ia prise de parole 
d*un interlocuteur). 
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2,7. Graphic des vari&ntes r6gionaIes 

nr^c H^'^i^"^ souHgn6 plus haut notre souci de transcrire les variantes regionales au plus 

pr6s de leur realisation phonetique, tout en observant les conventions graphiques traditionnelles. 

o pourront done apparaltre dans une graphie proche de la prononciation Par 

[mirTej/eTc. '^''""^'"'^ '"'^^""^^^ [istw^erj; m,>'^^^^^^ 

^t:.n^.ru^.?u^ identifies comme emprunts (A Tanglais, au wallon) seront Merits selon les 
Ltsc'itioTpK^^^^ langue-source (voir plus haut) et seront accompagn.s d'une 

Exemple: (fr.a.) c' est moi qui drive [draiv] 

(fr.w.) elle a pris un petit peleu [pel^]. 

La meme convention r^gira les mots (ou expressions) qui peuvent appartenir sur base de 
leur seule forme graphique, a Tune ou Pautre langue. -PP-ncmr, sur case oe 

Exemple: (fr.a.) tout ga c Hait top secret [top siikritj. 
de la tangle 'empr™";eSS.'''"'"*'" ' ^ P^no^iation 



Exemple: (fr.w.) je vais toujour s voir le football [f otbal] avcc le 



voisin. 



Les noms propres dont la prononciation est remarquable seront eux aussi accompacnes de 
leur transcription phonetique. ac^umpdgnes oe 

Exemple: (fr.v.) f habile pres de Villers [vile], 
lis chantent , etc De meme, seye soit\ eye (il ait% etc. Pour le fr.w., on distinguera a 

2.8. Conventions addltionnelles 

Bien des possibilites graphiques restent inexploit^es dans le systeme propose ci-dessus et 

np?L cI!?Jnf^" ' ""^ t'-anscription plus fine. Nous proposons les conventions addition- 
nelles suivantes, compatibles avec celles qui precedent. 



Nous dom: P« * ««rt»tut.on * de« fonrne standard, comme la pratiquent notamn.ent S. Poplack. P. Thibault 

tz, / ? I'^quipe du GARS. De m6m«, en ce qui conceme I'id^ntificaUon des morphdmea ab«ent8 fdu 

ITa dS^^-^^ * •'^ transcript 

la diff*rpnce notamment de S. Poplack, P. Thibault It D. Vincent). 
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2.8.1. Les deux points (:) sont utilises pour marquer un allongement de la voyelle qui precede. 
Exemple: c' est ma petite ami:e / / elle est terri. bLE 



2.8.2. Le soulignement d'une syllabe (ou d'un groupe de syllabes) par une serie 
discontinue de + marque un renforcement de Tintensite h cet endroit. L'utilisation d'une serie 
discontinue de - indique une intensite pius faible. 

Exemples: quelle horreur ce type 
+ + ^ + + + + 

i marchait sans un bruit 



2.8J. Pour ma^'quer les variations de debit, on utilisera le soulignement continu avec des fleches 
de direction differente: 

(a) acceleration du d^bit: --> — > — 

(b) ralentissement du d6bit: — < — 



2.8.4. L'iptonation sera transcrite au-dessus de la ligne concern6e, en utilisant les symboles 
suivants: 

/ intonation ascendante 
V intonation descendante 
— intonation plane 



2.9. Divers problemes se poseront au fur et i mesure de la transcription du corpus. Un inven- 
taire de ceux-ci et des solutions proposees pour les r^soudre sera etabli par les transcripteurs et 
mis ^ la disposition des consultants de la banque de donnees. 



3. POUR NE PAS CONCLURE 

A rheure actuelle, les industries de la langue s'appuient presque exclusivement sur le 
franfais standard. Si Ton veut aboutir ^ ce que les varietes linguistiques du fran9ais soient prices 
en compte» it faut s*atteler d'urgence ^ la constitution de bases de donn6es ou ces varietes seroni 
authentifiees et illustr^es. 
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A u concerne plus sp^cifiquement Toral, la necessity de r^unir une documentation 

a 1 6chene de la francophome est plus imp^rieuse encore. Mais cet effort, s*il ne se fonde cas sur 
un mmimum de convergences entre les chercheurs, particuHferement au plan des conventions de 
transcription, risque de limiter consid6rablement Pexploitation de certaines bases de donn^es. La 
demarche du projet PLURAL nous paratt illustrer certaines de ces convergences dans une 
peijpective comparative. Nous esp6rons qu*elle suscitera de nouveltes collaborations, en vue 
a aboutir & une description des usages linguistiques oraux de la francophonie 
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TRANSLEGS est une station de travail linguistique qui permef 

■ r^tude du lexique-grammaire d'une langue 

■ la comparaison de 2 ou plusieurs lexiques-grammaires de langues differentes. 



La realisation presentee ici porte sur le fran^ais et TitJ^iien. Elle repose sur les travaux 
linguistiques des chercheurs du LADL (Universite Paris 7) et de Tlnstitut de Linguistique de 
Salerne (University de Salerne) 



LES DONNfcES LINGUISTIQUES 

Les lexiques-grammaires 

Leur conception repose sur la constatation qu'un grand nombre d'opdrations syntaxiques 
d*une langue sont fortement liees d des conditions lexicales. 

La construction d*un lexique-grammaire [ M. Gross 1981} passe par la description 
syntaxique de la langue projet^e sur la globalite du dictionnaire. La presentation lexico-syntaxique 
prend la forme de matrices qui donnent les constructions d*un item lexical (verbe, adjectif, nom, 
etc.) pour un ensemble donne de formes syntaxiques. Par exemple, le lexique-g; immaire des 
verbes du frangais contient environ 10 000 verbes et 500 prupri6tes (formes et phrases) repartis 
en 60 tables [M. Gross 1975], [J.P. Boons, A. Guillet, C. Leclere 1976a, 1976bJ. 

Ces tables ou classes syntaxiques sont presentees sous forme de matrices. Elles sont 
definies par une propriety, dite definitionnelle, qui est en general une structure de phrase simple. 
Les items lexicaux qui ont en commun une propriete def initionnelle sont regroupes dans une m^me 
table. 

Par exemple, la table frangaise 33 a pour propriete def initionnelle NO I a ou NO et 
Nf sont des substantifs et 1' un verbe. 

Tous les verbes de cette table peuvent entrer dans des phrases de ce type, par 
exemple menlir: 

Max ment a Lea 



Par contre le verbe /liner n^appartient pas a cette table: 
*Max flirte a Lea 

(Tasterisque devant la phrase indique quelle n*est pas valide). 
Un extrait de la tabl^ frangaise 33 est montre figure 1. 
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FIGURE I: 
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Les enirfes lexxales sont en lignes, les proprieies syntaxiques en colonnes. 



Comparaison italieQ-fran^afs 

Fn vue de ia comparaison d*une partie des lexiques-grammaires de I'italien et du francais 

lexi °ar'"!;T'Ss^i.''H^m 'f'"'"""' '"f<-™«'<>"» supp«men.airls" Tctque" £ 

lexical est associS litem fransais correspondant et la table 4 laauelle aDoariient re 

fu'r/omplemeV, ^""^-'"'"""le des tables i.aliennes concerne 9 tables de verbes 

La figure 2 est un extrait de la table italienne iM2 [a. Elia 1984c]. 
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FIGURE 2: 
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Des correspondances entre iialien et fran^ais ont 
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Importer 
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Table 
f rancni sc 



galement ete d^finies pour les proprietes 



et pour les classe;. Ces )rrespondances nt sent pas bijectives. En effci une propriety ou une 
classe peuvenf it pas avoir de correspondant, ou en avoir plusieurs: lorsqu'une propriete n'a pas 
de correspondant le systeme doit proposer des propriei6s de "^fibstituticn" formellement voisines 
(figure 3). Les criteres de choix de ces dernieres doivent p^jvoir etre modifies par Tutilisateur. 
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FIGURE 3: 

TTMJEN 
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dubiuut delfmo Ch F ^ d^terdu fcuquP 

^ ^ ■ .'.^ douter ce qu F 

''Sne -- indique le choix d*une equivalence par proximife formelle. 

PRESENTATION DE TRANS LEGS 

nart:. ^IV^^ u^^^ est une Station de travail Hnguistique performante qui permet d'exploiter une 
part.e de la nchesse et de la complexi.e des donn^es que nous venons de decrire Le travail 

am^U mentTnv^^nn"? 'Z'TT'"'''- ^ ' ^^"^ complement. Leur nombre to tall 

actueiiement d environ 2 300 (verbes itahens et verbes fran^ais). 

plusieurV im'p^rS- ' ''''^''^ ' ' ^^^'^^^^ '^^^l" " ^ ^egager 

' ."trn/r?ltf^"^^'^''r connaissances qui soit, d'une part, apte d expliciter les relations 
structurelles imphcites des lexiques-grammaires et qui, d'autre part, permette de 
connaltre ^ tout moment r.uelles donn^es sont comenues dans \^ base et quels 
operateurs on peut leur appliquer, ^ 

m une interrogation interactive rapide et agreable, destinee aux utilisateurs qui n'ont pes 
a laire intervenir de connaissances en informatique, 

■ une administration des donn^es aisee (mise h jour, ajout, suppression), 
K une utilisation possible sur micro-ordinateur de type compatible, 

■ une bonne portabilite. 

nnnn^« ^^?Sn^^^^^"^ imperatifs nous a amenee d utiliser un Systeme de Gestion de Bases de 
Donnees (SGBDF) de type relationnel dont le langage d'acces est SQL, couple avec des 
programmes ecrits en langage C ^ ^^^w^c dvet ues 

La base de donnees de TRANSf EGS comporte 15 relations. 

CONCEPTION ET RtALISATION 
Architecture de TRANSLEGS 

TRANSLEGS est compose de differents modules. La figure 4 illustre I'architecture. 
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FIGURE 4: 



C utUiaateur ^ 



interface (l) 
Irequdtes SQIi'* 
SGBD 



interface (2) utiJisateur^ ^ 



Base de Donnas 



Consultation 

L'utilisareur dialogue avec une interface (1) 6crite en langage C. Le rdle de cette interface 
est primordial: 

■ elle affranchit Tutilisateur de toute syntaxe et de toute programmation, 

■ elle traduit les questions poshes en requites SQL pour leur traitement par le SGBD. 



Cette int-^rface repose sur les concepts de fendtres et de menus deroulants. 



Maintenance 

L'interface de maintenance (2)^ egatement ecrite en langage C, sert, d^une part, au transfert 
des donn^es de et vers TRANSLEGS, La mise d jour de< donnees se fait au niveau des lexiques- 
grammaires et est r6percut6e dans TRANSLEGS, 



Transfert des tonuses 

Les domees integrdes dans TRANSLEGS sont extraites des lexiqaes-grammaires 
implement's sur Vax 780 et Vax 730, ce sont des fichiers sequentiels de type ASCIL 

Reciproqi cement, TRANSLEGS peut produire de tels fichiers, utilisables par nMmporte quel 
togiciel sur n*impv>rte quel systfeme. 



Construction de vues dynamiques 

Le tinguiste ne travaille pas sur une presentation figee des lexiques-grammaires: il veut 
etudier une vue temporaire, qui n'existe pas en tant que telle dans les donnees, et quMl faut 
construire dynamiquement au moment de la consult:' tion. 
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Pfenons I exemple (figure i) de la comparaison d'un verbe italien et de son correspondant 
fran^ais Le Iinguiste s'inWresse k un sous-ensemble du lexique-grammaire italien et k un sous- 
ensemble du lexique-grammaire fran?ais. La juxtaposition de ces deux sous>ensembles constitue 
une vue partielle et temporaire. TRANSLEGS va reconstituer cette vue k partir de se5 relations 
et des hens qui existent entre elle. Cette reconstitution est dynamique et n'existe que le temps de 
la consultation. 



FIGURE 5: 



TABLES DES LEXIQUES-GRAMM AIRES 



MODfeLE RfiEL 




RELATIONS 
(TABLES RELATIONNELLES) 

MODULE CONCEPTUEL 



UTILISATION DE TRANSLEGS 



L*utilisation de TRANSLEGS repose sur les 2 concepts de menus arborescents et de 
lenetres. Dans chaque 6cran de consultation il y a une fenfitre de dialogue qui permei: 



de se d^placer dans les fenfifes, 
de sauvegarder les resultats affiches, 

de se deplacer dans I'arborescence: A tout moment il peut descendre» 
remonter. se deplacer lateralement ou arrdter. Un extrait de Tarborescence est donn6 
figure 6. 
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FIGURE 6: 



TRANSLSGS 




VERBE TABLE PROPRIfcTfcS 




EMPLOIS PROPRlfiTfeS COMPARAISON 
D*UN VERBE ^ ITALIEN / FRANgAIS 




Des exemples des consultation sont montr^s en figure 7 et 8. 



La figure 7 concerne la liste des verbes d'une table qui acceptent ou non une selection de 
propriet6s. Dans cet exemple, les verbes qui possedent la propridtd N0=: Nhum (substantif humain 
en position sujet) et ne possedent pas la propri6t6 Nl=: N-hum (substantif non humain en position 
objet) sont affich6s dans la partie droitp. (Les propri^tes concerndes ^ont ''marquees" par 
Tutilisateur dans la liste affich^e & gauc? 



FIGURE 7: 



TABLE IT42 



NO =! Nhum 

NO Nnr 

NO =: Ch P 

NO =: Vi Comp 

Nl =: Nhum 

Ppv gU 

Nl =: N-hum 

Nl il fatto Ch F 

a NXq 

in Nlq 

(di + da) Nlq 
Ppv =: (ct ^ vi) 
dal fatto Ch F 
NO V 

Nl di VI Comp 

Nlhum p^r Aux Vi Comp 



6 VERBES SfiLECTIONNfiS 



aggradar^ a 
apparire a 
haiuginare toe 
piacere a 
rep€ller« a 
ributtare a 
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La figure 8 concerre la comparaison italien-fran^ais. 

Dans cct exemple, rutilisateur d6stre 6tudier les propri6t6s acceotees oar le verbe i.-^Mpn 
mdare et par son correspondant francais. Un 6cran lui indTqur?ueTs sonf les d ff6rr^^^^^^ 
Smnni'tlc'^H "''■^l* traductions fran^aises raondL^es Poir ob^ 

propr.6t6s d un emplo. part.cuher, il suffit de le s^lectionner et une autre fenfitre sWiche 



FIGURE 8: 




EMPLOIS ITALIENS 


EMPLOIS FRANCAIS 
CORRESPOND ANTS 
» ^ 


v€rb€: andare Awm a 
table: tt42 

verbe: andare a 
table: it42 


verbe: aller Advm a 
table: SIR 

verbe: aller a 
table* 5 



Propri4td8 accept^ee 
par le verbe 
andare a 
dans la table tt42 



Piopri^t^s accept^es 
par le verbe 
aller a 
dans la table S 



NO =: Nnr 




NO =: Ch ¥ 




NO =: VI Comp 




Nl =: Nhum 




Ppv =: gli 




Ppv =: (ci + vi) 





Qu P 

le fait que P 
Vl Comp 
V'.c Comp 



NO = 
J^O = 
HO = 
NO = 

Av'X =. *tre 
Nl =: Nhum 
Nl =: Ppv 
Nl =: N-hum 
que Psubj 
de VI Comp 
de Vic Comp 



CONCLUSION 



t une elq^uire^e'inmm/dti"'^''"'' '"^"^-^^^'"^t^"^ compatible. Le temps de reponse 

V. A. -^n ?7l;^''r"^1 "uT^'^ ^^^^^ (environ 2 300) et le nombre de propri6t6s (qui 

A I ^1'^^^" les tables), le nombre d caregistrements a traiter avoisine 55 000 et le volume 
actuel de la base est d'environ 7 Mega octets. "lumc 
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Notre premier objectif, la consultation rapide, est atteint et confirme la validite d'une 
station de travail dMi^e & Texploitatfon de donn^es linguistiques implant6es sur micro ordinateur, 
Les suggestions et les critiques 6mises par les utilisateurs de cette base de donnees devraient nous 
guider vers la ndcessit^ (ou non): 

■ d*une interface plus deductive qui prendrait en compte les proxtmit6s formelles des 
pr0pri6t6$, 

■ d^une interface en tangue naturelie ui permettrait une plus grande convivialite entre 
Tutilisateur et le systdme fY. Mathieu, Sabatier 1986]. 

Ce module n*est pas propre au fran^ais et i Titalien. II est generalisable a d'autres langues 
(pour une utilisation mono, bi ou multilingue), et a d'autres items lexicaux: des etudes sont en 
cours pour des applications sur des noms, des noms composes, des expressions figees. 
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A. INTRODUCTION 

Ce texte est un essai de synthese de$ divers travaux existants sur la Grammaire Applicative^ 
principalement les deux Hvics de Shaumyan (1977 et 1987), surtout ceux de 77. II sera fait 
mention, bien entendu des travaux de E>escl6s nombreux (DESCLES 1987, DESCLES 1988) qui ont 
6tendu et pr6cis6 Tapproche originelle et ceux de Reb (REB 1988) et pour ce qui concerne les 
subordonn^es, des miens (ROUSSELOT 1988). Les projets de la th^orie de la Grammaire 
Applicative Universelle sont ambitieux et de nombreux developpements sent encore h faire. II 
manquait jusqu^d present un ouvrage ou les fils conducteurs soient visibles et apparent et non 
noy6s dans des techniques de calculs. CTest ce que nous avons tent^ de faire ici. L*urgence d*une 
telle t&che s*imposait: la Grammaire Applicative Universelle (G.A.U. dans la suite) est une th^orie 
formalis^e peu connue des linguistes et des logiciens ainsi que des sp^cialistes de Tlntelligence 
Artificielle. Or, elle se situe exactement au confluent de ces trois domaines et permet un 6change 
fructueux entre les trois sp6cialit6s. 

En effet, la G.A.U, s'appuie sur la Logique Combinatoire qui outre Taspect calculatoire 
(construction des pr6dicats, composition, pr^dicats complexes) procure un environnement apte i 
la deduction: la Logique Combinatoire est une logique. Quant & la linguistique, la th^orie 
linguistique de la G.A.U. vise k mettre ^ jour des ph^nomenes universels permettant d'etudier 
Tactivit^ langagiSre i.e. «le Iangage» et de le ramener k des m^canismes ^l^mentaires utilises dans 
toutes les langues. Ces mecanismes appartiennent vraisemblablement au domaine cognitif. 

Nous le verrons plus loin, la G.A.U. procure un cadre formel trfes rigoureux qui permet 
d*aborder T^tude de la representation du sens au moyen de <<pnmitives» s6mantiques ainsi que 
la construction du systeme de primitives, Une telle approche est fort diff^rente de celle bien 
connue en Intelligence Artificielle (LA, dans la suitf;) (Schank 72), Ici la liste des primitives n'est 
pas fournie par Tintuition, mais induite par le systeme. Les representations obtenues sont tres fines 
et ont Favantage d^dtre d6crites dans un systeme logique ou les inferences sont possibles. Ce 
dernier aspect ne manquera pas dMnteresser les informaticiens de TLA. Dernier point, la logique 
combinatoire con*;titue pratiquement un langage de programmation (voisin de LISP). Des recherches 
sont entreprises d'ailleurs actuellement sur des machines d combinateurs bashes sur cette logique 
(Curien, Robinet etc.). La construction du sens d'un enonce est tres comparable, nous le verrons, 
i rex6cution d*un programme. 

11 convient de dire, ici, que le formalisme de la G.A.U. p ut avoir certains cdtes techniques 
qui peuvent sembler arioes. Pour r^aliser des descriptions avec une cerlaine finesse, it est 
necessaire de decomposer les operateurs linguistiques en operateurs abstraits eiementaires. On aura 
constamment & Tesprit deux niveaux de lecture: le niveau des calculs eiementaires (qu*on pourra 
qualifier de niveau micro) qui decrit les details operatoires et un niveau plus etev6 (le niveau 
macro) qui, lui, resumera certaines phases, correspondant k des operations linguistiques, parfois 
longues. La pratique de Tenseignement ^ des etudiants linguistes, pendant plus d*une ann^e, nous 
a montre que bien qu'un peu contraignant, le formalisme est assimilable par le linguiste qui 
comprend tres vite son int^ret, Sa finesse per let de decrir % ou d'esperer decrire, des phenomcnes 
linguistiques pointus comme par exemple r rtaines relatives particulieres, tout autant que de 
contribuer & Tambition centrale de la G,A.L., construire un systeme d^invariants el ht^*r dessus 
une theorie constructive du sens. 
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Notre effort actuel est bien entendu tourn6 vers ia realisation d'applications prosrammees 
l« itnof"'J' ^''''^^^ dVnvisager d'^crire des progSmmes de traitemTm de 

claf^emmi^^^^^^^ moyennant certaines simplifications linguistiques qui sont alors tres 



B. LA MtTHODOLOGIE G.A.U. EN GEN£:RAL 
a) la m^thode hypoth^tico-Jeductive 

1. determination du probldme (simplification) 

2. emission d'une hypothdse pour le rdsoudre 

3. deduction des consequences de Thypothese 

4. comparaison des consequences avec les faits reels. 

Dans rapproche de la G.A.U.» ces quatre etapes peuvent etre pr6cisees. 

1. considerer un fait linguistique important: par exeinple le fait qu'on peut traduire une 
langue dans une autre. 

Placer Tobjet dans des conditions imaginaires idraies (cf. le mouvement sans frotte.nent) 
sans sencombrer de certains facteurs. Par exemple. on le verra plus loin, on s'occupera 
du sens mtrinsfeque" d'enonces: sans aspect, sans determination. 

2. on formule alors des hypotheses: par exemple le fait qu' il existe des invariants 
langagiers. 

3. deduire les consequences des hypotheses, celles-ci ne doivent pas concerner seulement 
'®^.J.*'^.!.J'3i['^"''' doivent en expliquer d'autres inconnus jusque la (pouvoir 
predictif). Chaque hypothese est h la fois un outil d'explication et un outil de prevision. 

4. verifier les hypotheses, les corriger, les rejeter au profit d*autres plus probables. 

»a « la G.A.U. est une th6orie en cours de d6veloppement. Elle possede un 

certain nombre d'hypotheses testees et d'autres eventuellement a trouver ou k remettre^en cause 
^IIIL scientifique. il y a des possibiUtes de changement. De nombreux 

exempies dans 1 histoire des Sciences montrent que des theories soHdes peuvent etre mises en 
cause par de nouveaux faits ou Ic developpement de nouveaux points de vue (gravitation de 
Newton et relativtte d Einstein). Notons que la mouvance des theories dans les Sciences Theoriques 
abstraites est plutdt signe d'essor, tandis que theorie stable est plutdt synonyme de stagnation. 

M^u construction de toute theorie scientifique, il faut construire un systeme 

d hypotheses. On construit un reseau de concepts definis simultanement. ces concepts sont les 
elements, non lies directement t une science empirique, d'un systeme formel. Comme le dit 
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"LeB cottcep%$ physiques eont de« cr«&tionfi libres de I'efipni humain et ne sont pas, biei, qu'on 
pulfft€ ie croire, uniqu«meni d«lermtn«8 par )c nKmde exUme. Dana notre tentative de 
compHhetufiion de la r^alit^ nous reeeembtons & un homme qui essate dc comprendr« I© 
fonctiomiement d'unc montre ferm««. I! regarde le cad ran et tes aiguittee, il dcoute m%me le 
tic-tac, mais U ne p^ut ouvrir U bottier. S*il «>t ing^nieux, it p«ut fonner unc replantation 
du m^aniante cap^l« d*expliquer tout c« qu*U observe, mat* ii nm peut jamais *tre tout h fait 
9<ir que c*wt la Mule qui peut exptiquer res obseryatSont. It n<» sera jamaia capable de la 
comparer au systdnoe Hel et m6me» it ne pourra Imaginer la poaaibilit^ d'une telle comparaison. 
Mal«, II croit certainement que^ au fur et & menu re que sa connaiaaance crolt, aa representation 
de la r^alite devient ptua aimpte et expltque un plua grand nombre d^imprefiflions, II peut auesi 
croire en Texistence d'une Uniite id^ale de connalaeances approchablee par Tesprit humain. It 
peut appeler cetle limite id^ale "^r^alit^ objective"". 



II n'y a pas de m6thode, de procedure analytique pour fabriquer un systeme d*hypotheses 
d partir de donnees empiriques, il y faut de Timagination et de Tintuition. 

Dans le domaine linguistique, il est important d'observer plusieurs langues, avant d'essayer 
de procader par abstraction pour formuler des hypotheses universelles. On echappe ainsi ^ un 
certain ethnocentrisme, present dans bon nombre de theories. On 6vite de prendre pour categories 
universelles des notionc induites uniquement par I ^tude des langues indo-europeennes seules. 



b) Abduction 

La m^thodologie evoqu6e ici, fait appel au schema d'inf6rence dit -d'abduction% 
fr^quemment utilise par Sherlok Holmes. H peut se schematiser de la maniere suivante: si j'ai 

une r6gle d'implication qui me dit A et B > C, que j*ai B vrai et C vrai, j"ai de bonnes 

raisons de croire que A est aussi vrai. ti est clair que cette m^thode est ft utiliser avec une tres 
grande circonspection et que les hypotheses ainsi formul6es doivent &ite, d'une part, -intuitivement 
vraies-, d'autre part testables ou v6rifiables assez rapidement par recoupement. 



Exemple: Si une personne a trop bu, elle ne marche pas droit. 



Je vois dans la rue une personne qui titube, j'en deduis immediatement qu' elle a bu: il 
Skagit d^une inference pb.usible. En elTet, Tabus de boisson est une cause frdquente de marche 
non rectiligne. 

L'abduction n*est pas tou jours liee a la causal ite. Si j'ai par exemple la connaissance 
suivante: 

Beaucoup d^habitants du num^ro vingt de la rue du Ddme sont alcooliques. Je connaJs 
monsieur Dupont, j*apprends qu'il habite k cette adresse, je peux itre hment ^ faire Pinference 
(plausible) que monsieur Dupont est alcoolique. U s'agit ici de Tutilisation d*une constatation et 
non pas d'une relation de cause. 

En effet, rimplication Si Alors qui vient de la logique ne recouvre pas uniquement la 
causalite. 

Finalement, une situation qui confortera unc hypothese formulee apres abduction sera 
robtention de '^nouvelles'' deductions rendant compte de fails nouveaux et en parfait accord avec 
notre intuition. 
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C. FONDEMENTS DE LA GAM 
a) S^mantique 

formalisme''' definitions, nous introduirons les raisons qui ont .onduit au choix du 

n.nci.?^^' ^^^^^^ exprime une pens6e complete exprim^e avec des mots Mais au'est-ce ou'imp 
pens6e? Comparons avec la notion de prix d'un objet Le orix la Valml^r nhl^t il t ^ 

valeur de ceux-ci, d condition de se fixer en plus un systfeme de r6f6rence (italon) 

phrases-^lLVLnv'^vin! ^2 devoir alors d6crire la "proximity s^mantique" de deux 

Phrases, elles convoyent des messages voisms, elles sont substrtuables dans une situation donn Te 

exemple: la phrase de base de "le chien mange un chat" est "chien mange chat". 
II est Clair que dans ce cadre, de nombreuses phrases auront le m^me 



sens: 



le chien manf^e le chat 
le ch?t est mang6 par le chien 
ce chat, il est mang6 par le chien 
le chien mangeait le chat 

r^ HVo,?" d'autres termes, on postule que le sens (profond?) commun ^ toutes ces Dhta<;e«; P.5t ii 
dSat"ot.^''""' ' "^"^^^^"-^ ^'-'^"-^ th.matL^ToTLpec""tem^^^^ 



b) concepts de base Genotype Phenotype 
deux ecri^erdrsTe'un^agr^o™^^^ " 

■ iTnSsf stysr^"' * '""^"^^ 
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Pour en revenir avec ia metaphore ''valeur'*, tout comme Targent mesure une valeur, la 
mesure gen^rale du sens consistera en ta phrase la plus simple grammaticalement.^ 

Le langage en tant que tel rV<iste pas, il faut expliquer son r61e dans le processus de 
communication linguistique. Pour 6^. borer la th6orie s6mantique, tl faut etre capable de definir 
le •'message* port6 par un 6nonce. II est bien clair que diff^rentes phrases peuvent exprimer le 
m^me message. Le forma!isme postul6 est Pappareillige formel de la Grammaire Applicative et 
le langage appel6 Langage G6notype^ d^fini par celle-ci. 

On postule done dans chaque langue naturelle Pexistence de deux langages: 



a) un langage primitif dans lequel le contenu d'un message est represents sans ambiguite 

b) un langage d'expressions, celles-ci sont produites, par applications successives de 
diff brents op6rateurs sur les expressions du langage primitif. 



Pour modeliser cette hypothese, le langage genotype est scindS en deux parties: le langage 
genotype primitif et le langage genotype d'expressions. 



Langue Ndtureile 
Langage Genotype 

phrases primitives < > 

LG primitif 

expre«8ion8 < — > 

LG d'cxpreeeione 



Nous dSfinirons bien dvidemment, dans les chapitres qui suivent, les rapports entre ces 
differents langages. Le iangage genotype d'expressions est obtenu a partir du langage genotype 
primitif par rapplication des regies formelles de notre theorie. 

La grammaire phSnotype contient les regies sp6cifiques ^ une Langue Naturelle particuliere 
qui envoient les phrases de surface dans le langage formel (les filches horizontales du schema). 

Pour eviter des confusions, il faut mettre Taccent sur les differences essentielles entre 
certains concepts de la theorie G.A.U et des concepts apparemment similaires ailleurs. En premier 
lieu, il Skagit d*une theorie de la paraphrase tout k fait nouvelle. Nous presenterons les transforma- 
ticas comme des reductions (et non des Equivalences cf EtesclEs, 88) et les transformations ne 
resteront pas it un niveau purement syntaxique. En effet, la theorie conduit naturellement ^ ne 
plus faire les distinctions habituelles entre syntaxe et s6mantique, et A se situer dans un domaine 
qu'on peut qualifier de ''sEmantique intrinseque** <I>escIes, 1987), 

Le concept de langage g6notypc ne doit pas etre confondu avec celui de structure 
profonde, ni celui de phenotype avec structure de surface. On peut faire une comparaison entre 



Tout comme d^s |09 8ydt^meB physiques. En proc4dant ainfii on fait une approxtmatton: tout Ic problem© est de faire en 
Bort© que celle-ci boH ta plu9 fine poesible. 

'Gdde! Eficher et Bach: ADN 
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structure ^imantique profonde et langage g^nc.yps primitif et une autre entre structure s^maNiiaue 
ae surface et langage genotype d'expressions. Le langage genotype mod^Iise 4 la fois la structure 
s6mantique profonde, la stn«ctu»«» rr.antique de surface et les operations qui permettent de passer 
de ia forme de surface d la "fcrme profon ie". Attention, nous soulignons qu'il s'agit de structures 
semantiques: Chomski travaille uniquement sur le plan syntaxique. 



d) Universality du genotype 

L'hypothfese principale faite ici est que les bases sdmiotiques du langage naturel sont un 
systfeme de c?»6gones hnguistiques universelles. Pour les conjecturer, il faut d'une part Investitjuer 
le plus possible de langages diff^rents (tous) du monde, 6tablir par abstraction des categories 
g6n6rales. II faut, d autre part. d6finir les propri6t6s de I'objet langue .laturelle et deduire toutes 
les consequences de cette definition. 

La methode hypoth^tico-d^ductive est k la base de la construction. Du point de vue d'une 
throne hnguistique 6tablie sur les bases postul6es ici, un syst^me de categories universelles n'est 
ni vrai ni faux, mrm est donn6 par definition. Le systeme doit quand mime prMire avec succi's 
les categories hngmstiques possibles dans les langages r^els. Si pouvoir pr^dicatif du systeme 
est fort, cela en fait un outil puissant d^investigation. sysieme 

Les categories universelles ne sont bien entendues pas observables. car se situant a un 
niveau abstrait au-dessus des langues naturelUs ^^articulieres, on les construit par abduction des 
niveaux observables. 

On peut considerer le langage genotype primitif comme un langage "pivot" entre les 
langues. C est. en effet, dans ce langage qu'on exprime les "pensees completes", il n'y a aucune 
raison de rattacher ce langage a une langue naturelle particuliere. 

Reprenons un exemple de S. Shaumyan (Shaumyan, 1977): 



Doceo pueros grammaticam" et "j'enseigne la grammaire aux enfants" et 
Ich lerne den Schulern Grammatik" expriment la meme pensee: on peut 
choisir abitrairement I'une de cetles-ci comme pensee standard. 



II est raisonnable de supposer qu'un tel langage "pivot" existe, non ouvert 4 Tobservation 
directe, mais observable mdirectement. Notons que ce langage ne repose pas uniquement sur 
I mtuition comme par exemple dans certains travaux d'Vntelligence Artificielle (SCHANK dej^ 
cite et WILKS). il repose ici sur des bases cognitives et Hnguistiques. Le schema precedent devient 
aiors: 



LNj 

G^notyp« 

langage primitif > 

< — langage primitif 



Lang&ge 

langage genotype 



primitif 
grammaire 

ph^notype II 
langage d'expressions 

< — langage 

d'expressions 



grnmmaire 
ph 'type I 



langage genotype 
d'eKpreeaione 
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Nous esp^rons as^ez rapidement avoir oca resultats de recherches exploitant cet aspect da 
sys.^me. II y a encore cu peu de recherches en ce sens, les principaux travaux se concentrant sur 
le langage genotype, fondamental il est vrai. 



e) Le systdme formel de la Grammaire Applicative 



Cest un systeme sp6cifi6 d^objets linguisti.^ues qui est d^fini par des regie/ mathematiques 
de dd^duction et par les regies permettant de rameri j des objets construits comple; es 4 de^ objets 
plus simples (regies de reduction). Ces rfegles sont appel^es Grammaire du Genotype ou Grammaire 
Applicative (la notion d*application joue un rdle essential dans la construction des '^bjets du 
genotype). 

Le L.G. comporte un ensemble d*objets initiaux, les atomes et un ensemble fini de regies 
permettant de ramener des objets ^ des objets s mples construits sur les atomes. It existe plus 
un ensemble de regies qui permet de contrdler qu*un objev complexe est ''bien ^crit** dans le 
formalisme (types). La definition* le choix de la taille des atomes peut conduire 4 faire varier le 
niveau d'approximation du langage. 

Cuniment obtenir un systdme formel r 

On observe df ^ faits. A ces faits on associe des symboles, des atomes qui serviront de base 
d la th6orie. Pour ce qui est de la thdorie de la G.A.U., dans un premier temps les atomes 
coTr^spondront sensiblement aux entrees lexicales puis dans un second temps 4 des unites de sens 
pluf tines. 

On adjoint ensuite des proc6dds constructifs. On va pouvoir construire des objets 
symboliques complexes. Par exemple, la theorie des gaz est batie sur les atomes et sur les 
molecules. 

Les proc6d6s constructifs doivent permettre de predire des faits inconnus auparavant mais 
en Principe possibles. 

Pour batir une theorie '*formalisee**, il faut se donner un systeme pe. mettant de deduire 
des theor^ oes. 



L on choisi^ les axiomes 

2. on choisit des regies de constructions '^ui permettent de construire des objets 
complexes. 

L'ensemble des axiomes et des objets complexes formcHi ce qu'on appelle une classe 
inductive d'objets. 

3. on definit sur cette classe inductive des predicats elementa^res pour pouvoir formuler 
des assertions sur ces objets. 

4. un sous-ensemble des assertions possibles est postule comme etant vrai (les hypotheses 
de la base de la theorie). 

5. des regies sont postulees pour deriver de ces axiomes d*autres assertions vraies: les 
theoremes. 
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La th6orie dc la G.A.U. est calqu^e exactement sur ce modele. Nous le verrons oour 
?iIoLc^Tr;r?"'. '"^"'^^^ l^g^remcnt diff^rente. Plutmque de priviirgie 

de rS-mation "^^^ ^^^^^^ complexes d des objets simples, en perdant ^ventuellement 



Unlversaux de !a G.A.U. 



L'elaboration de la G.A.U. s'est operee ainsi: la question pos^e ^tant de savoir auels son* 

sabstient des details non directement en rapport avec ce probl^me. Un langap.e n'existe )as sans 
^nonces. Ce sont des expressions completes d^crivant une situation ou une action (tyje t) ' e flux 
du d.scours est coup^ en Elements discrets fonctionnant comme les phr^s ci-dS ' 

nhi^tc "-n'^^^ -^"^'^ possible d'avoir des langues naturelles sans expressions aptes d d6noter des 

elements umversels les plus simples, on peut construire un systdme montrant comment on peut 
r^duire les 6lemer.ts complexes t une construction d'^l^ments simples. commeni on peut 

La th6orit de la G.A.U. est done en r6alit6 tr^s simple. Le souci de d^comoosition t- 
composants f tementaires et abstraits entralnera parfois des chaines d^explTcati^ 

^essen^el r^n^tT!; ''"^'^^ ^^"^^'""'^ '"^"•^^^ ^ tout ce quYest 

messentiel par rapport k la communication. Les L.G. mod^lisent les caract^ristiques universelles 
des Langues Naturelles quand ils codent, tr.-r n et d^codent des messages ""'^^'^^"^ 

Finalement on peut se poser les questions de savoir quel est le lien d'une th^orie abstraite 

^^'^"^ onrologique des objets abstraits d'un syst^me II fau cfmpar^^^ 
Ivec X on mnfn. H ""T S^ographique. Elle repr^sente la r6alit6 sous un certaiS angle 

axec plus ou moms de finesse. La carte a une existence mais trds diff6rente de Texistence de ce 
Z!L\TJ'T- \' ^^^^'".^PP^^^'^nt (^omme la langue naturelle) ^ la realite objLt ve La carte 
fa-t part.e d un systeme symbol.que creation de Pesprit de Phomme. On P^tilise pour representer 
m aspect parttcuher de la realite objective. fcpresenier 

C. LA G.A.U. ET LA LINGUISTIQUE 

■a) G.A.U., s^miotique, llnguistlque et sciences cognitives 

Nous I'avons dej^ abord^: la th6orie de la G.A.U. a des objectifs relics aux domaines 
linguistiques, semiotiques et cognitifs. aomaines 

1. L'objectif primaire de la G.A.U. est la construction d'un systdme s6miotique dont les 
entites de base et les operations de base seraient les entites et les operations universelles 
de representation 

^' simimique"^"'^^ d'etudier formellemenf les proprietes et la structure de ce systeme 

3. Le langage genotype es^ Tin variant du^uel d^coulent les di verses langues. L'etude des 
diverses grammaires ph^notypes consiste done i etablir les regies qui proiettent le 
genotype lans les langues observable? e m jcuci ic 
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4. Le systdme 6tant cens€ encoder des m^canismes tinguistiques universels (auxquels 
correspondent presque certainement des mecanismes cognitifs), il permet d'aborder une 
6tude formelle et typologique des langues. Le genotype est rinvariant: chaque langue 
est une projection par des regies diff^rentes (la grammaire genotype) du genotype dans 
chaque langue particuli^^re. Suivant les axes de travail, on peut done ^tudier les 
Evolutions des iangues dans te temps (diachronie) ou les comparer structurellement. 

5. Plus g^n^ratement, les lois qui sous-tendent le systdme sEmiotique des langues ont 
certainement une port^e plus generate, en musique, par exemplef Jackendoff), ou dans 
les langages artificiels (Hofstader, 1987, op. cit.). Les invariants oEgag^s par les recher- 
ches de la th6orie ont vraisemblablement un statut cognitif. II s*agit vraisemblablement 
d*une representation des operations ei6mentaires "precfiblees"* de notre cerveau qui nous 
permettent de comprendre ef de parler plusieurs langues. 



GAU agr6e avec Thypothfese cognitiviste: la langue en tant que produit de Tesprit humain 
doit manif ester les structures abstraites de cet esprit. Ces structures abstraites qui se manifestent 
dans d^autres domaines de fagon analogue, se retrouvent dans le langage et dans la gestion des 
connaiss^.nces dans Tesprit humain (Raccah 86). 



b) La GAU et !e$ Invariants 

La recherche des invariants peut conduire & une reflexion approfondie sur les phEnom^nes 
gen^raux d toutes les langues. II faut i tout prix se ddgager des tentations d^ethnocentrisme. 
Certaines notions consid^rdes comme fondamentales sont fondles dans certaines theories sur la 
predominance des langues indo-europdennes: il en est ainst pour les notions de sujet et d^objet. 
Certaines structures marginales dans certaines langues sont classiques dans d^autres, '^rergativite*' 
par exemple (cf. Tchekhoff). Ces structures sont en fait H reflet de m6canismes trds g^neraux 
dont on d6ceie la presence dans de nombreuses langues. II faut pouvoir en rendre compte, c*est 
le propos de la G.A.U. II en est ainsi, par exemple des operations de thematisation, realisees aussi 
bien par Tordre des constituants que par des variations phonologiques (intonations), qui tournent 
uniquement autour de la predication. 

A un niveau plus profond, il est necessaire de pouvoir prendre en compte des notions 
plus proches de la semantique* La communication qui est impliquee par les verbes de mouvement, 
de changement ou decrivant des situations, repond k des conventions qui permettent de postuler 
Texistence de •'primitives'* independantes d*une langue particuliere. Shaumyan et bien d'autres y 
ont donne un debut de reponse par la theorie des cas (theorie localiste) (Hjemslev et Tecole 
Danoise, GrOber etc) et la theorie semantique qui en decoule. Shaumyan en a entrepris 
formalisation dans le cadre de la Logique Combinatoire des 77. 



La GAU langage de communication 

Le modeie de la G.A.U. est un cadre formel et general oii les problfemes semiotiques, 
linguistiques ou de representations peuvent etre decrits de fa^on rigoureuse. De par cc fait, c^est 
un excellent moyen de communication. Le modeie de la G.A.U. bien que par son approche 
particuliere nettement different des modeles existants, ne se pose pas en contradiction des theories 
existantes, II permet, on le verra, de prendre en compte des resultats et des idees de la 
linguistique traditionnelle (Benveniste), ainsi que contemporaine (Culltoli, Pottier, MeFcuk, 
Comrie, Langacker, Jackendoff. Portal, etc....). 
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HftA„..^?^"!^*'^»'^ ^A'^ Problfeme particuHer se fera done aprds lecture de la 

!~ant''' ^^"''''^^^ formalisme sera de toute fajn 



La GAU th^orle de la construction du sens 



A ^t"^?.^** 1!? principale caract6risvique actuelle de G.A.U. Nous Tavons deiA 

sen?d';ie''Dhn^e 'rf mL^ir^'V^-"'^^'' d'introspectlon sur la fagon donTL const u't 
rlsultats ni6can»sme principal va. partant d'un 6nonc6. produire deux sortes de 

■ la forme primitive: le sens brut de la phrase 

" forme^pfiSitwi'^"^ grammaticaies qui ont permis de produire la phrase 4 partir de la 

n est Clair que d6finir pr^cis^ment la signification grammaticale de ces 0D6rateurs 
grammaticaux n'est pas toujours chose ais6e. Du point de v„e du lingu ste la PortL exacte de 
L'SmaSr"'"' ^"^ '''' ^^"^ ^^"^^ beaucou?,"lVs! Tpoin? dfvS 

On voit done, iei, le double int6ret de Tapproche* mise en 6videnrp d^c ntMirr,t»„rc 
grammaticaux a fin cT^tudes dans des conditions facili?anrceL-d!yssibim/^^ sSiste 
de rintelhgence Artificielle de pr^ciser, sMls les ignorent, commenHL lis ap^oximent^ 

ir^r^'n^Jl ^ r ^ "^^^I » ^ '^^^agc formel descriptif, il n'est aucun travail d'l A oui 

• f!^^ r'^/^^l'" r'"'' '^"^ simplifications op6r6es par rapport ^ la langue nature!^ 
d^Trla^SsSs^;^^^ les^lin^itations L la"Zt 
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le ".en,"d'nn^ndlfr""^"^' ^^''i?"^ ''"^ '? s^mantique intrins^que vient de I'id^e que 

le sens d une phrase compos6e d*un certain nombre de mots est construit t partir du sens de 

Se ?rcntno'?>''^T 'I «'^;^*"«,^'8"'fi^«ion P^opre existe "dite signification inKque" venant 
de la composition structurelle de ces lexemes. La signification r/elle dans un contexte ou une 

du s^n^n^^^^^^^^^^ '''' ''''''''' ""^ ^^^^^^^^ suppl.mentaire de'rXentiatioH 

I! reste bien sOr des problemes a resoudre. La determination, par exemple qui est une 
operation qui se greffe sur la predication, est encore un probldme difficile 

f r^A^^.^V '^^^^^^' ^'^'V' "'^ ^® ^^^^"^ r6f6rentielle, il semble que son d^veloppement 

definies'de b detifef ^^.ff ^T'^''" ^^^^^ ^^^^^i au discours des r~e 

aelsnies, de la deixis et de 1 anaphore, car ne traitant que de simantlque lotrlns^que. 11 est 
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envisageable (et envisage) de r^aliser sur les bases de G.A.U.^ ou plutdt sur les bases theoriques 
de Curry (Combinatorial Logic, tome 2) un systeme comparable i celui de Kamp (KRmp 78); la 
description s^mantique s^mantique obtenue serait a!ors plus fine que celle du modeie de Kamp. 

Families de paraphrases 

Pour en finir avec ce chapitre d'introduction, voyons un exemple de families 
paraphrastiques. 

FAMILLB 1 

(1) on a passd de fort beaux disquee ce matin 

(2) les disquM ont M pass^ 

(3) n fie pa6de beaucoup de beaux disquee depuia peu 

(4) Ce 8ont de beaux dttque qui ont ^t^ p&sa^o. 



(5) 


On a paasd de beaux diftques. 


FAMILLE 2 


(6) 


Piene passe un diaque 


(7) 


Pierre le pae»e, le disque 


(8) 


Pierre, il le passe le disque 


(9) 


un disque est pasa^ par Pierre 


(10) 


il est pass^ par Pierre, le disque 



Ces families se reprdsenteront par des arbres: ^ la racine 4 



6 

2 s 

7 0 

4 3 

8 to 



On congoit intuitivement la rai^^on de Texistence de deux branches diff^rentes; Tune decrit 
ta voix active, Tautre la voix passive. Plus on $*61oigne dans les branches, plus la phrase est 
compliqu^e* En effet, 8 est obtenue apr6s deux operations de thematisation, 10, aprfes passivation 
puis th^matisation. 
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Annexe 

Construe aon d'une th^orie scientifique 



SenK 2rJm?t fc r ^ ^P*' abstraits. Les concepts el6mentaires observables sont des 

e 6ments primitifs du domaine: Teiectron en physique, le gdne en biologie etc Les concents 
^I^mentaires sont postul^s apr^s s^n^ralisaiion des donides, ils se situent au^lveau emplr^^^^^^^ 

Pour que la th^orie ait un int^rgt, il faut qu'elle possede des his. Si celles-ci ne sont aue 
des g6n6rahsations de faits observes, elles n'apportent pas grand'chose. On doi done "cons^ruire" 
un niveau sup^neur, c'est 14 qu^intervient Vabstraction. consiruire 

iatstraaion Ment^TaJT '''^"^"^"^ ^'^"^^^ generalisations 



"un marin aime la mer" 



H'ohJ^t !:Lf^a"t'^li^f^'^"' '"^^oduction d'un objet abstrait, n6cessite I'emploi de "regies d'exclusion 
d objet abstrait". II faut pouvoir ddduire "Popeye aime la mer". & w.u^juu 

Vabstraction relationnelle est fr6quemment pratiqu^e. On en a vu Texemple pour le conceot 
fes obfe"ts ''"^ ^^''"^"^ d'/qSnce entfe 



nn*. Mfj^^^^ g6n6rale les constructions^ correspondent 4 de r^nobservable. Pour qu'elles aient 
une utihte Muelconque, il faut specifier exactement comment elles se lattachent aux obiets 
emp,nques, comment etablir ces relations pour les objets empiriques {abstractilTsystZique) 



Lois 



Les lois stattstiques n'apportent gudre d'informations. Elles g6ndralisent r^tat de donnees 
fT."-?c?.-°r"^ actuellement. Elles ne peuvent prendre en com^te une Ivolution temporellf 
Les lois statistiques n'aident pas dans la recherche de systemes potentiels. wmporeiit. 

II est beaucoup plus interessant d'dlaborer des lois ddductives. G^neralement on se olace 
sans%rottfm"emr' ^'exp6rience et on sp^cifie la loi construite (exempTe: mouvemenl 



318 



ERIC 



Auteurs Pierre Plante 

Centre d'ATO, UQAM 
Jean Perron 

Office de la langue franfaise 

Titre Un projet de recherche et de d6veloppement: 

un systdme de d6pouillement terminoEogique assists par 
ordinateur 



RtSVMt 

I. Introduction 

Le dipoufUement lerminologique consiste 6 recueillir, dans des textes techniques 
ou scientifiques. la terminologie d'un domaine. Si Von considere la particularite du 
terme (qui se prisente, tres souvent, comme une expression syntagma!ique composee 
d'un nombre variable de mots et construite selon une grande diversity de modeles 
de formation), peut-on imaginer un systeme de dipouillement assist^ par ordinateur? 
Queltes seraient les composantes de ce systeme? Quels types de connaissances 
faudrait-il emmagasiner dans ce systeme? 



2. Hypothise et strat^ie 

En tout premier lieu, une description mor phosyntaxiqw des textes d dipouiller 
slmpose : categorisation lexicale et grammaticale, lemmatisation et, enfin, analyse 
syntaxique. C*est Vanalyseur syntaxique qui, en relevant les structures syntagmati- 
ques des textes, produira une premiere liste de termes virtuels, Toutefois, les unites 
ainsi d^pisties par Vanalyseur ne constitueront pas toutes des unites terminologiques 
bien decouples: plusieurs d'entre elles, bien qu'elles correspondent formellement a des 
modeles terminologiques, ne sont nutlement lexicalisables. Aussi le risultat de 
Vanalyse est-^il destini a itre retraite par un ensemble de regies et de criteres 
terminologiques (inscrits dans une base de connaissances) qui rejetteront certaines 
unites et pond&eront les autres: diverses autres strategies de traitement des unites, 
relevant de techniques d*analyse de textes par ordinateur, de la lexirom^trie, 
permettront ^galement de restreindre la liste des unites initiales les plus lexicalisa- 
bles qui seront soumises. avec leurs contextes, au terminologue pour analyse et 
validation. 



3, Types de connaissances requises 

Le succes du d^veloppement d'un systeme de depouiilement repose sur la capacite 
qu'on aura de d^crire et d'exploiter les divers niveaux du fonctionnement discursif: 
morphologique, syntaxique. lexical et lerminologique. semantiqur^ 7 textueV 



4. Applications 

D'une fagon generale, le systeme projete permettra une exploitation plus 
appropriee des donn^es comprises dans les textes d portee scientifique. technique ou 
administrative puisquil depistera les mots composes ( termes complexes), ce que ne 
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peuvent /aire les logkiels hatitueliement taUisis en lexicom^trie. De ce /ait, ses 
applications powront itre varices: si son utiUsation en terminologie. en niologie et 
en lexicologie est ividente, il peut ^galement constituer m outil appreciable pour 
Vexploitation des connaissances scienti/iques, techniques ou administratives dies- 
memes puisque la tongue est une representation de ces connaissances (ex: identi/ica- 
tion et etude du vocabtuture d'une speciality a des /ins documentaires par les 
pro/esswnnels de cette specialite ou d des /ins de modeiisation des donnees en vue 
de reiaboration de systdmes in/or matises, etc.). 
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Titre line analyse des propositions em > a, para > de> du portugais 



U analyse proposie dome d ces pri posit ions le rdte d'dldment d'une relation 
lacadve et dicrit leurs formes sous- jacentes g^omitriquement marquees, Des verbes 
supports interviennent dans cette analyse. Ce qui permet de d^crire les phrases 
locatives complexes dans des phrases ilimentaires qui traduisent la relation locative 
entre le Ueu et Vargument du lieu. 
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Cette recherche de base dans le domaine des communications verbales a pour but de 
perm.ttre ii un synth6tiseur de parole en fran^ais, d6veIopp6 k riNRS-T6I6communications\ de 
parler ^ diff^rentes vitesses de d^bit. Cette option suppl^mentaire sur le synth^tiseur permettra 
i Pusager de choisir parmi trois vitesses de lecture: une vitesse normale pour lecture courante, une 
Vitesse lente lorsque les textes sent difficiles, par exemple, et une vitesse rapide pour feuiUetcr 
le contenu d*un texte. L'INRS-T6I6communications possdde deux systdmes de synthase par regies 
qui permettent de g6n6rer un texte oral franca :s k partir de nMmporte quel cexte 6crit, chacun 
mettant k profit une technique diff^rente: un synth^tiseur k formants^ et un synth^tiseur par 
diphones^ 

La premidre 6tape de cette recherche consiste d ddcrire les principales techniques 
d*acc6i6ration et de ralentissement du ddbit en fran^ais, ft partir de Tanalyse d*6chantillons de 
parole naturelle. Dans la deuxidme etape, les regies degag6es lors de Tanalyse pr6cedente seront 
implant^es dans le synthetiseur. Le present article porte sur la premiere etape de la recherche. 



K COMPOSANTES DU DfeBIT 

Les deux principales composantes du d^bit, gen^ratement d^fini par le nombre de syllabes 
prononc^es par minute, sont la vitesse d*articulation et les pauses. La plupart des recherches sur 
le sujet ont eu pour but de cerner les differentes caracteristiques du d6bit normal & travers 
diff6rentes i^.preuves discursives (discours spontan^, discours politique, lecture, etc.). On peut 
citer, entre autres, les travaux de Goldman- Eisler^ et Lass^ pour Tanglais, Grosjear t Deschamps^, 
et Duez" pour le fran?ais. Peu de chercheurs, cependant, se sont pench^s sur Texamen des 
variations impos^es de d6bit (Lass^ et Gilbert^). Cette 6tude est la premifere ^ examiner les 
variations imposdes de debit en vue de Tapplication k la synthese par rdgles. 



L'&uteure fiat ^g&lemdnt profe^seure invlide h riNRS-T^I^communication. 

D. O'Shaughnessy (1984) '•Destij.'' of a real time French text -to -speech system", Speech Communt<!at ton , vol. 3, p. 2S3*24S. 

3 

D. 0'Shaughnesay» D. Archambault, D. Bemardi et L. Barbeau et al. (J987) "Diphon© Speech Synthesie", Speech 
Communication , Vol. 7, No 1. 56-65. 

4 

F. Goldman *Ebler (1966). "The significance of changes in the rate of articulation. 
^N. Laas et Deem, J.F. (1971) "Temporal patterns of rate alterations in oral reading*, Acta S ymbQ jics. 11, 254-263. 

Grosjean et Deschamps, A. (1972) "Analyse des vanables temporeliea du fran^ais spontan*"» Phonetica . 26, 129-166. 

7 

D. Duee, (19^2), **Silent and non-silent pauses in three speech styles'*, Language and Speech . Vol. 26, Part I, 11-28. 

8 

N. Lass et De«m, J.F. (1971) "Temporal patterns of rate alterations in oral reading", Acta SymboUca . 11. 254-203. 

Q 

J,H. Gilbert et W3. Kenneth (1969) "Rate alterations in oral reading", Language ai^d spe^l^ . 12, 192-201. 
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2. MfeTHODOLOGIE 



. -.^"^ *^f"« recherche, j'ai eu recours d deux locuteurs ayant ^habitude de parler en oublic- 

un professeur (locuteur 2 et un annonceur de radio (locuteur 1) Les enreaistremenK ont ^f^ fJ^ 
en chambre sourde au labomtoire de phon^tique. LeTlocZun avlntTure?^^^^^^^ 

c'e.1 ?df^n^.n"/f f T.'**;^?" '^"^^^^ ^^^^^"^ leur vi es e de i^bft 

cest-a-dire qu'ils devaient d'abord ira !« t^^ti. & »:»<>«c^ «^ i« ^ . . 




Pour Texamen des corpus, j'ai eu recours & deux types d'analyse: une analvse oercentu^^n*. 
et une analyse acoustique. Les diff6rents corpus ont 6t/pr6sent/s ries sujeB ^^^^^ 
deux t^ts de perception (un pour chaque locuteur). Les sujets avaiem^ur ^flche d^dentS 
Vitesse a laquelle ijriait le locuteur (vitesse lente, normale ou rapide) S a^l^e ceo uel e 
a pour but de verifier que le locuteur a r^ussi ft produire la vitme de d6bit dS Le anS 
acoustiques pnt 6t€ faites au laboratoire de phon^tique ft Taide de pSgram^es d'^^^^^^^ 
spec rographique implant^s sur un ordinateur Zenith AT II s'agit principaleSTseRment! Ln 
de" Zis ''^'^'^ '"""'^^ "'^^'^^^ ' rexamen des vSs ^a^Sion et 



3. RtSULTATS 



3.1 Texte long 



le m..rn«i nl^ est constitu6 de cmq paragraphes. II s^agit d*un article paru dans 
e journal Le Devoir. J'examme ici les donn^es relev6es chez le locuteur2 Bien cue 
les trois productions du locuteur (normale, lente et rapide) presenten peu de di tinctlon 

n Z Lut" tintet-'" ^" d^bit et de la vitesse dVHculation S 

I), on p^ut toutefois remarquer une meilleure distinction entre la vitesst normale et 
a vite^e ^ente (dur6e totale: 105 s et 87.5 s) qu'entre la vitesse normale eHa Se S ST^j 
s et 82,8 s). Ceci mdique que le locuteur a eu plus de facility ft ralentir au'ft acc616rer cl 

aSicXoire' Efeffet T:'.^""' 1^^.(19JI) !t peut .tre reli^TSes JontrllSS'cford'; 
articulatoire. En effet, il y a une Iimite ft la vitesse ft laquelle un locuteur peut oarler et 
t^ZT!S ^'i?''*"'" clu message. Cependant, il est int^ressant d?^remarqTr au nleau 

^rceptuel, que les auditeurs ont bien distingu6 le texte rapide du texte lent mais ont percu le 

awustiques''°"*™^ ""''^^"^ '^""^'^ ®" contradiction avec les donn^es 
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FIGURE h 
Variations de d^bit. Texte long. Loc. 2 



D^bit et synthtea 

Variations dc debit Texte iong L oc 2 





lent 


Normal 


B-9Pide 


D6bit (syll./mn) 


300 


343 


360 


Dur^Q totale: 


105 s 


87.5 s 


82.8 s 


Suites sonores: 


50 


35 


22 


Pauses; 


49 


35 


22 


Vitesse d'art. 


6 3 sylt./s 


7 syll./s 


7.4 syll./s 


Rappon 


77.7% 


82.2 % 


81.8% 



phtyiation/duree totale 



Cependant, si les trois productions se distinguent peu au niveau de la vitesse d'articulation, 
le nombre de pauses par centre est tres different d'une vitesse ^ Tautre. Le nombre des pauses 
d6croit r^gulierement quand on passe du texte lent au texte rapide. On retrouve 49 pauses pour 
le lent, 35 pour le texte normal et 22 pour le rapide. Le nombre des pauses semble jouer un rdle 
preponderant dans I'indication de la vitesse de debit. 

La comparaison entre I'analyse acoustique et I'analyse perceptuelle indique qu'un tel texte 
scmble trop long pour etre exploitable dans le but qui nous interesse. En effet, le locuteur a 
beaucoup de difficultes ^ tenir un debit constant tout au long du texte et il est difficile de savoir 
si Tauditeur base son impression de la vitesse de debit sur tout le texte ou sur un des paragraphes 
en particulier. J'ai done decide d'avoir recours ^ un texte moins long compose d'un seul 
paragraphe. 



3.2 Paragraphe isoie 

Le paragraphe comprend trois phrases complexes et un total de 90 mots. On peut 
remarquer, cette fois-ci, une meilleure distinction entre les trois vitesses de lecture (duree totale: 
35,4 s, 28,6 s et 23,6 s) mais les vitesses d'articulation sont toujours assez semblables (6 syll/s, 6.8 
syll/s et 7,5 syli/s, tableau 2). Encore une fois, la distinction se fait au niveau des pauses. Ici, 
il y a trois fois plus de pauses en debit lent qu'en debit rapide et deux fois plus en debit norn.al 
qu'en debit rapide, Le rdle priviiegie des pauses d; •> le debit constitue une caracteristique tres 
importante car elle permettrait de modifier le debit du synthetiseur beaucoup plus facilement. En 
effet, si, pour changer le debit d'un texte, il suffit de modifier le nombre de pauses sans toucher 
& la vitesse d'articulation, la tfiche s'en trouve non seulement facilitee mais il y a ainsi moins de 
risques de compromettre rintelligibilite du texte. 
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FIGURE 2: 
Variations .t dmt. Par. 5. Loc 2 



D6blt et synthds« 



Variations de d^bit. Par. 5. Loc. 2 





l-ent 


Normal 




Debit (syli./mn): 


272.9 


342 


404 


Dur^e totale: 


35.4 s 


28.6 s 


23.6 s 


Suites sonores" 


20 


14 


7 


Pauses: 


19 


13 


6 


Vitesse d'art. 


6 syll./s 


6.8 syll./s 


7.5 syll./s 


Rapport 


76% 


83% 


91 % 



II reste cependant k ddfmir les points d'occurrence des pauses. L'indice le plus important 
de I apparition d une pause est la presence d'un marqueur orthographique (point, virgule. etc ) 
II existe une hi6rarchie a l'int6rieur de cette cat6gorie: une pause en pr6sence d'un point est 
obhgatoire quelle que soit la vitesse de d6bit mais, aprfes une virgule, la pause peut tomber 
lorsqu on acc6l6re le d6bit. En fabsence de marqueurs orthographiques» si le texte est trop lone 
des pauses apparaitront aux frontiferes syntaxiques. Cependant, ces pauses ont un statut plus 
fragile et lorsqu'on acc6l6re le d6bit, elles sont les premieres d tomber 



3.3 Phrases Isoldes 

,1 ■ fS"'' ^«st. i'ai utilise une s6rie de dix phrases isol6es, phon6tiquement balancees 

(Lennig ). Le locuteur (Locuteur 1) devait lire chaque phrase dans Tordre suivant: vitesse 
normale, lente, normale, rapide. Au moment de Tenregistrement j'ai noU un problfeme pour les 
phrases k vitesse lente: elles semblaient d6jft trop rapides. Nous avons demands & la locutrice de 
les reprendre. Elle a done relu la s^rie de phrases compl6tes & vitesse lente seulement. Les 
r^sultats de I analyse des deux series sont pr6sent6s dans le tableau 3 (Lent I represente le 
deuxidme essai et Lent 2 le premier). Ce tableau pr6sente une analyse comparative des vitesses 
d articulation pour les diffSrcntes vitesses de d6bit. La presence d'une pause dans la phrase est 
indiqu6e par une virgule eutre les chiffres reprdsentant les vitesses d'articulation des suites sonores 
de la phrase. 

Les diff6rentes vitesses de lecture se distin^uent par la presence ou I'absence de pauses 
La Vitesse lente est caracf6ris6e par la pr6sence d'au moins une pause dans la phrase et ce, pour 
les deux essais. Seule la phrase 8 ne pr6sente pas de pauses. Au niveau perceptuel, cette phrase 



***M, L«nnig (1981) "Phrases francaises phon«iquement balancees", Revue d'acouatique, 56, 31-42. 
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a, dans les deux cas, M reconnue par les auditeurs comme 6tant une phrase d vitesse normale. 
Du point de vue de la production, la presence d'une pause semble 6tre un ^I^ment tr^s important 
pour distinguer la vitesse lente de la vitesse normale. Cependant, au niveau perceptuel, environ 
la moiti^ des phrases ^ vitesse lente (premier essai, Lent 2) ont €tt jug^es comme 6tant de vitesse 
normale dans les tests de perception, ce qui indiQue que la seule presence d^une pause ne suffit 
pas & indiquer la vitesse d^articulation. II n'y a que peu de difference au niveau des pauses entre 
la vitesse normale et la vitesse rapide. Trois des phrases pr^sentent une pause en vitesse normale 
et une seule phrase en vitesse rapide. L'auditeur ne peut done, dans ce cas-ci, baser son jugement 
sur lb vitesse de debit par la presence ou Pabsence d'une pause. 

La vitesse d'articulation semble done ici jouer un rdle important. On peut d'aiileurs 
lemarquer une plus grande distinction entre les vitesses d'articulation des trois debits (tableau 3). 
Les vitesses d^articulation inoyennes sont 3,1 syll/s pour la vitesse lente (Lent 1), 5,1 syll/s pour 
la vitesse normale et 7,5 syll/s pour la vitesse lente (tableau 4). La vitesse d'articulation semble 
jouer au niveau des phrases Isoldes un rdle beaucoup plus important que dans les autres types de 
texie (paragraphes et phrases)^ En fait, les phrases sont d'une complexity syntaxique asstz simple 
et assez r^duite quant au nombre d'eiements. Done, pour changer la vitesse de debit d Tinterieur 
de phrases isoiees, on ne peut se contenter des pauses. Les modifications de durees sep.mentales 
deviennent indispensables. 



FIGURE 3: 
Phrases isoiees. Loc 1 

D^bit et synthase 

Phrases isofees. Loc. i 



Viiesse d'articulaifon (syfl./s) 















I enl 1 


Lent 2 








34.36 


4.9.4.5 


6.0. 5 T 


75 


2 


3 4.4.3 


4 3 6 4. 6 1 


54 


70 


3 


3 9. 37 


2 9.4.6 


52 


7.0 


4 


2.2. 2 9 


3 0.3 4. 4 9 


47 


5.9 


5 


3.5. 2.8.3 3 


^.0.3 6.3 9 


4.6. 5.2 


C.1.9. 


6 


2.3. 4 0 


3 6.49 


4.0, 57 


59 


7 


1 4. 3 4 


1 8,4 8. 4.9 


53 


7.0 


8 


4.6 


4 8 


5.6 


7? 


9 


2 9, 3 1 


4 5.34.30 


4.4 


52 


10 


2 b. 5^ 1 


4 ?. 4 1 


5 14 


69 



4- DISCUSSION 

Les resultats des analyses nous amenent ^ conclure que si les pauses jouent un r61e 
determinant dans Tindication de la vitesse de d^bit pour les textes tongs, il n'en va pas de m^me 
pour les phrases simples isol6es. I>ans ce dernier cas, c^est la vitesse disarticulation qui semble 
I'element determinant. Done, le module de modification de debit pour la synthese de parole cievra 
integrer les deux composantes. 
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FIGURE 4: 
Comparaison des ^^itesses d'articulation 

D6btt et Qynlhdse 



Comparafson des vitesses d'artiouSatfon 

Texte Jong f^J 7 



Par 5 Loc 2 



Par 5 Loc i 



6 



:>4 



3 3 



58 



5.1 



74 



75 



6 3 



J 



LniMr,^':"'?'"'"".? acceptable comme indicairL d^ne v eSe norma e pou? 

ZfA'^rn ' d-uns rtponse negative, II faudrnonc refaire u„ 



"d. 0'Sh.«,h«»., (IBM). -A Stud, of French Vow.l, .„d Con.o„.„.. D„r..io„,-. Journ^ ot Phor.tlo. , 9, 385- 
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II existe un autre module de dvree pour la parole de synthase par regies en fran^ais 
(Barkthova et Sorin*^). Ce modete coume celui de O'Shaughnessy laisse de cOte un aspect 
linguistique important dans les param^trjs de modification de dur6e: la syllabe. En effet, aucun 
de ces modules ne ttent compte de la syflabe comme cadre d'appltcation des regies. Pourtant, leur 
importance est reconnue. Prenons comrne exemple le cas de la regie d'allongement des voyelles 
devant consonnes allongeantes. Cette rigle ne s'applique que si la consonne qui suit est dans la 
mfime syllabe: voyage [vwaja:^} mais voyageur [vwaja -5^r]. Aucun des mode'es actuels ne peut 
rendre compte de ce ph6nom^ne. 

FIGURE 5: 
Phrases holies: Loc. 1 et Loquax 

Phrases isofees; Loc 1 et Loquax 

Vitesse cf'arlKruiation (syii /s) 



Phrase 






Normal 






Loc. 1 


L'oc 1 




Loc 1 




3 4.3G 




4 4 


75 


2 


34.43 


5 4 


3 9. 3.8 


7,0 


3 


3 9.3,7 


52 


3 8 


70 


4 


2 2.29 


4 7 


34 


59 




3 5.28.33 


4t 5 2 


35 


6 1 , 9.6 


6 


2 3.40 


4.0 5 7 


39 


59 


7 


^ ^1.3 4 


5 3 


4.0 


7.0 


8 


4 G 


56 


4 6 


7.2 


9 


2.9.3 1 


4 4 


4 3 


52 


10 


2 5 . 1 


5 14 


4 4 
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De plus, comme on peut le voir dans ce cas-ci, ce ne sont pas tous les elements de la syllabe qui 
sont alors modifies mais seulement ceux de la rime. En effete quand une vovelle s'allonge sous 
i'effet d'une telle rdgle la consonne qui suit doit alors obligatoirement s*abr6ger^^. De plus, d'apres 
Texamen sommaire de mes corpus, il semble que Timpression de ddbit soit principalement 
vehicul6e par les modifications de dur6e des syllabes accentu6e$. 

11 faudra done probablement reddfinir un module de dur^e segmentale pour le fran^ais. 
Un autre probleme se presentera alors: celui du corpus ? utiliser. En effet, les modeles de 
variation de dur6e ont generalement pour corpus de base, du moins en partie, une serie de mots 
isoles permettant dVxaminer les variations de dur6e en fonction d*un ensemble complet de 
contextes phon6tiques. Ce type de corpus est inutilisable dans les variations imposees de debit. 
En effet, plus un mot est r6duit quant au nombre de segments et de syllabes, plus il est difficile 
de faire varier le debit en le pronon^ant. Un not isole laisse peu de place aux indices de debit. 
II faudra done trouver une methode plus appropriee aux itudes sur le debit. 



K. Barkthova ct C. Sorin (1987) *'A Model of Segmental Duration for Speech Syntheses in French", Si>eech 
Cornnmnication » 6:3. 24S-26i. 

D. Archambault et al» (1986), "^Frobl^me de production ou probleme de perception? cas du d^voisement dcms la 
dtoint^gration phon^tique^^ Congr^s de i'ACFAS, University de Montreal. Recht^rche aubventionn^e par les Fonda 
FCAR et rUniversit* de Montreal (CAFIR). 
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RtSVMt 

Je compte presenter ici me apprache nouvelle aux problemes du parsage (c'est- 
a-dire de Vanalyse morphologique, syntaxique et s^mantique de phrases en langues 
naturelles). Cette approche est essentiellement linguistique, plutdt qu'informatique. 
EUe encourage des descriptions approfondies. modulaires et transparentes. 

On emend par thiorie du parsage universel tme approche au probleme du 
parsage caraci^risie par les huts suivants : 

a) Uniyersaliti des domalaes llnguistiques. Elle doit dtre applicable mutatis 
mutandis a tous les types de langues: 

m '"configurationnelles" ou mn; 

m strictement ordonnies ou nan; 

m a arguments externes ("sujets") ou nan: 

m ergatives. accusatives ou mixtes: 

m a relations grammaiicales ou rhematiques dominantes: 

■ polysynthiliques, analytiques ou aggluiinanies. 



b) Universality des objets trait^s* Elle doit egalement tenir compte de tous les 
types d' objets et de relations syntaxiques : 

■ categories mineures aussi Men que majeures, 
m constructions simples ou complexes. 

■ objets et constructions marques et non marques. 



c) Couverture lexicale. En/in, elle doit permettre une couverture lexicale assez 
large (de Vordre de 20 000 mots) pour ckaque langue traitee. 

En cela, cette approche s'oppose radicalement a la pluparl des approches 
recent es^ : 

a) qui sont orientees vers un type euro peocentr isle'' de langue (configuration- 
nelle. strictement ordonnee. a arguments externes, accusative, a relations grammatical 
les dominantes et analytiques): 

b) qui negligent plusieurs types de categories (surtout les categories mineures) 
et de constructions (en particulier ^es adjonctions et les appositions ) et ne tiennent 
que peu ou pas compte des relations the mat i que s et rhematiques et 

c) dont la couverture lexicale est insignifiante (de 200 a 2000 mots). 



Cf. par exemple Correa (1987), Marcus (i&80), Berwick (1985), McCord (1980, 1982, 198S, 1987), Monn 
(1985), Pcreira (1981, 1982), Proudian & PoHard (198S), Weinberg (1987), Wehrii (1983, 1984) 



329 



Jean- Yves Morin 



r^S^^A - ^f' K computatiomel, la thiorie du parsage mivenel est 
caract^ns^e par les buts suivants : "^"vcrie-t esi 

a) Gdn^rlcltt Les fonctions de parsage doivent iire d^finies d m (res haul 
fobjets (descnpnom linguistiques) auxqueh elles s'appUqueni plutdt' que 

b) Modularltfe et transparence fonrtlonoelles. Les modules d analyse doivem 
ijre fomwnnellement transp. nts, c'esl-d-dire gu'ils doivent permeitre 
daccumuler de linformmion .r un ou plusieurs objets de fagon mcremen- 
tale, sans que les resultats d'un module puissent venir contredire ceux d'mi 
autre. Chaque module doit done trailer des proprietis specifiques. 

A partir d'exemples concrets, J'essaierai de demomrer rinterit et la faisahHiie 
d une telle approche dans le cadre des grammaires d'umficaiion et de 'a program- 
motion logique par contraintes. ^ ^i,rum 
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